Chapter 10

随机变量与概率分布

随机变量将试验结果用数字表示,概率分布则概括各取值出现的可能性。深度学习中用於预测与不确定性。

home.mathDiagramTitle

home.mathDiagramDescription

泊松:一侧偏(事件次数)· 二项:中间高、对称(成功次数)

正态分布
泊松分布
二项分布
图2:离散 vs 连续

什么是随机变量与概率分布

随机变量将试验结果对应成数字概率分布则概括各取值出现的概率。上图是 AI 中常用的三种分布:正态、泊松、二项
① 离散随机变量 — 只取有限或可数个值。可用表格、函数、条形图表示;各取值 kk 的概率 P(X=k)P(X=k) 称为概率质量函数(PMF),满足 kP(X=k)=1\sum_k P(X=k)=1
离散例子 — 某日动物园游客数、抛两枚硬币正面个数、直到打出保龄球全中为止的投掷次数等可数结果。上图的泊松、二项条形图即离散随机变量。
② 连续随机变量 — 在区间内取无穷多个值。不对单点定义概率,而用概率密度函数(PDF)表示区间上的概率。不用表格,用函数与曲线表示。
连续例子 — 年降雨量、灯泡寿命、公交车到来前的等待时间等连续量。上图的正态分布(钟形曲线)是连续型的代表。
概率分布是「取哪些值、各有多少概率」的规则。上图所示的正态(连续)、泊松(离散)、二项(离散)三种掌握后,即可覆盖 AI 中的多数情形。
概率质量函数(PMF)是离散随机变量各取值 kk 的概率 P(X=k)P(X=k)。在条形图中,条的高度即为该概率,所有条的高度之和为 1。下图是三种常见分布。
与图的对应图1(上):左侧正态为连续(曲线),中间泊松与右侧二项为离散(条形)。图2将离散(条形)与连续(曲线)并排比较。AI 中:正态用于噪声与回归,泊松用于事件次数,二项用于成功次数与二分类概率。
概率分布的条件(离散) — PMF 是各取值 kk 的概率 P(X=k)P(X=k)。满足 kP(X=k)=1\sum_k P(X=k)=1。(例:骰子 P(1)++P(6)=1P(1)+\cdots+P(6)=1。)
通俗说:离散情形下,所有可能取值的概率加起来必须等于 1。就像骰子,1 到 6 每个面出现的概率加起来是 1。
概率分布的条件(连续) — PDF f(x)f(x) 给出区间概率:P(aXb)=abf(x)dxP(a\le X\le b)=\int_a^b f(x)\,dx,总面积为 f(x)dx=1\int_{-\infty}^{\infty} f(x)\,dx=1
通俗说:连续情形下,曲线下的面积表示概率。X 落在 [a,b] 的概率就是从 a 到 b 的曲线下面积;整条曲线下的总面积等于 1。
期望(均值) — 离散:E[X]=kxkP(X=k)E[X]=\sum_k x_k\, P(X=k),连续用积分。即“按概率加权的平均”。
通俗说:期望就是“每个取值乘上其概率再全部加起来”。例如骰子:(1×1/6)+(2×1/6)+…+(6×1/6)=3.5,即按概率加权的平均。
方差Var(X)=E[(XE[X])2]\mathrm{Var}(X)=E[(X-E[X])^2]。标准差 σ=Var(X)\sigma=\sqrt{\mathrm{Var}(X)}。Ch11 会详细讲解。
通俗说:方差描述“相对平均的离散程度”。先算(每个取值−平均)的平方,再按概率取平均得到方差;方差的平方根就是标准差。
正态分布(连续) — 密度 f(x)=1σ2πe(xμ)2/(2σ2)f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-(x-\mu)^2/(2\sigma^2)}μ\mu 为均值,σ\sigma 为标准差。
通俗说:以均值 μ 为中心、左右对称的钟形曲线。σ(标准差)越大曲线越扁越宽,越小曲线越尖。身高、测量误差、噪声等很多自然现象都近似服从正态分布。
泊松分布(离散)P(X=k)=λkeλk!P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}k=0,1,2,k=0,1,2,\ldots)。λ\lambda 为平均发生次数。
通俗说:用来描述“在固定时间或范围内事件发生次数”的分布。λ 是平均发生次数,公式给出恰好发生 k 次的概率。条形图通常向一侧偏。
二项分布(离散)P(X=k)=(nk)pk(1p)nkP(X=k)=\binom{n}{k}p^k(1-p)^{n-k}nn 为试验次数,pp 为每次成功概率。
通俗说:同一试验做 n 次,成功次数为 k 的概率由该公式给出。p 是单次成功的概率。例如掷 n 次硬币正面朝上的次数,常得到中间高、两边低的对称条形图。
预测时用「可能取值及其概率」表示,就是随机变量与分布。图中的三种分布在 AI 中用来表示不确定性。
AI 与图(正态) 用于回归、噪声、潜在空间;(泊松) 用于浏览量、点击量、事件次数;(二项) 用于二分类与成功概率。softmax、采样与交叉熵损失都与这些分布相关。
日常 — 游客数(离散)、降雨量·灯泡寿命·等车时间(连续)。区分可数连续即与图中的条形(离散)和曲线(连续)对应。
AI 中 — 图中正态用于误差与高斯噪声,泊松用于计数与词频,二项用于类别概率与成败建模。Ch11、Ch12 会进一步讲均值、方差与正态分布。
离散随机变量时:① 确认可能取值及概率 → ② 确认概率之和为 1 → ③ 期望 = 各 (取值)×(概率) 之和
概率之和P(X=1)+P(X=2)+P(X=3)=1P(X=1)+P(X=2)+P(X=3)=1。分母为 6 时 a/6+b/6+c/6=1a/6+b/6+c/6=1a+b+c=6a+b+c=6,已知两个可求第三个。
期望E[X]=x1p1+x2p2+x3p3E[X]=x_1 p_1+x_2 p_2+x_3 p_3。分母为 6 时 6E[X]6\cdot E[X] 为整数,题目常求“6×期望”。
例题 — 将概率之和填为 1,或求 6×期望。
例 1. 三个概率为 a/6、b/6、c/6 且和为 1,则 a+b+c=6。a=1、b=2 时 c=3。
例 2. 取值 1、2、3 对应概率 1/6、2/6、3/6 时,6×期望 = 1×1+2×2+3×3 = 14。