Chapter 10

随机变量与概率分布

随机变量将试验结果用数字表示，概率分布则概括各取值出现的可能性。深度学习中用於预测与不确定性。

home.mathDiagramTitle

home.mathDiagramDescription

泊松：一侧偏（事件次数）· 二项：中间高、对称（成功次数）

正态分布

泊松分布

二项分布

图2：离散 vs 连续

什么是随机变量与概率分布

随机变量将试验结果对应成数字，概率分布则概括各取值出现的概率。上图是 AI 中常用的三种分布：正态、泊松、二项。

① 离散随机变量 — 只取有限或可数个值。可用表格、函数、条形图表示；各取值

k

的概率

P(X=k)

称为概率质量函数(PMF)，满足

\sum_k P(X=k)=1

。

离散例子 — 某日动物园游客数、抛两枚硬币正面个数、直到打出保龄球全中为止的投掷次数等可数结果。上图的泊松、二项条形图即离散随机变量。

② 连续随机变量 — 在区间内取无穷多个值。不对单点定义概率，而用概率密度函数(PDF)表示区间上的概率。不用表格，用函数与曲线表示。

连续例子 — 年降雨量、灯泡寿命、公交车到来前的等待时间等连续量。上图的正态分布（钟形曲线）是连续型的代表。

概率分布是「取哪些值、各有多少概率」的规则。上图所示的正态(连续)、泊松(离散)、二项(离散)三种掌握后，即可覆盖 AI 中的多数情形。

概率质量函数(PMF)是离散随机变量各取值

k

的概率

P(X=k)

。在条形图中，条的高度即为该概率，所有条的高度之和为 1。下图是三种常见分布。

与图的对应 — 图1（上）：左侧正态为连续(曲线)，中间泊松与右侧二项为离散(条形)。图2将离散(条形)与连续(曲线)并排比较。AI 中：正态用于噪声与回归，泊松用于事件次数，二项用于成功次数与二分类概率。

概率分布的条件（离散） — PMF 是各取值

k

的概率

P(X=k)

。满足

\sum_k P(X=k)=1

。（例：骰子

P(1)+\cdots+P(6)=1

。）

通俗说：离散情形下，所有可能取值的概率加起来必须等于 1。就像骰子，1 到 6 每个面出现的概率加起来是 1。

概率分布的条件（连续） — PDF

f(x)

给出区间概率：

P(a\le X\le b)=\int_a^b f(x)\,dx

，总面积为

\int_{-\infty}^{\infty} f(x)\,dx=1

。

通俗说：连续情形下，曲线下的面积表示概率。X 落在 [a,b] 的概率就是从 a 到 b 的曲线下面积；整条曲线下的总面积等于 1。

期望（均值） — 离散：

E[X]=\sum_k x_k\, P(X=k)

，连续用积分。即“按概率加权的平均”。

通俗说：期望就是“每个取值乘上其概率再全部加起来”。例如骰子：(1×1/6)+(2×1/6)+…+(6×1/6)=3.5，即按概率加权的平均。

方差 —

\mathrm{Var}(X)=E[(X-E[X])^2]

。标准差

\sigma=\sqrt{\mathrm{Var}(X)}

。Ch11 会详细讲解。

通俗说：方差描述“相对平均的离散程度”。先算（每个取值−平均）的平方，再按概率取平均得到方差；方差的平方根就是标准差。

正态分布（连续） — 密度

f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-(x-\mu)^2/(2\sigma^2)}

。

\mu

为均值，

\sigma

为标准差。

通俗说：以均值 μ 为中心、左右对称的钟形曲线。σ（标准差）越大曲线越扁越宽，越小曲线越尖。身高、测量误差、噪声等很多自然现象都近似服从正态分布。

泊松分布（离散） —

P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}

（

k=0,1,2,\ldots

）。

\lambda

为平均发生次数。

通俗说：用来描述“在固定时间或范围内事件发生次数”的分布。λ 是平均发生次数，公式给出恰好发生 k 次的概率。条形图通常向一侧偏。

二项分布（离散） —

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

。

n

为试验次数，

p

为每次成功概率。

通俗说：同一试验做 n 次，成功次数为 k 的概率由该公式给出。p 是单次成功的概率。例如掷 n 次硬币正面朝上的次数，常得到中间高、两边低的对称条形图。

预测时用「可能取值及其概率」表示，就是随机变量与分布。图中的三种分布在 AI 中用来表示不确定性。

AI 与图 — (正态) 用于回归、噪声、潜在空间；(泊松) 用于浏览量、点击量、事件次数；(二项) 用于二分类与成功概率。softmax、采样与交叉熵损失都与这些分布相关。

日常 — 游客数(离散)、降雨量·灯泡寿命·等车时间(连续)。区分可数与连续即与图中的条形(离散)和曲线(连续)对应。

AI 中 — 图中正态用于误差与高斯噪声，泊松用于计数与词频，二项用于类别概率与成败建模。Ch11、Ch12 会进一步讲均值、方差与正态分布。

离散随机变量时：① 确认可能取值及概率 → ② 确认概率之和为 1 → ③ 期望 = 各 (取值)×(概率) 之和。

概率之和 —

P(X=1)+P(X=2)+P(X=3)=1

。分母为 6 时

a/6+b/6+c/6=1

即

a+b+c=6

，已知两个可求第三个。

期望 —

E[X]=x_1 p_1+x_2 p_2+x_3 p_3

。分母为 6 时

6\cdot E[X]

为整数，题目常求“6×期望”。

例题 — 将概率之和填为 1，或求 6×期望。

例 1. 三个概率为 a/6、b/6、c/6 且和为 1，则 a+b+c=6。a=1、b=2 时 c=3。

例 2. 取值 1、2、3 对应概率 1/6、2/6、3/6 时，6×期望 = 1×1+2×2+3×3 = 14。