Chapter 10

随机变量与概率分布：用数字刻画不确定性

随机变量将试验结果用数字表示，概率分布则概括各取值出现的可能性。深度学习中用於预测与不确定性。

按章节的数学图示

选择章节后，下方图示会切换为该章节内容。可一览基础数学的脉络。

泊松：一侧偏（事件次数）· 二项：中间高、对称（成功次数）

正态分布

泊松分布

二项分布

图2：离散 vs 连续

什么是随机变量与概率分布

随机变量(Random Variable)把一次试验（实验）的结果对应成数字，一般记作

X

。例如约定硬币正面为

1

、反面为

0

的瞬间，掷硬币这一现实事件就变成数学上的变量

X

。概率分布则是像地图一样、一眼看出这些数字各自以多大概率出现的规则。

① 离散随机变量 — 只取有限或可数个值。可用表格、函数、条形图表示；各取值

k

的概率

P(X=k)

称为概率质量函数(PMF)，满足

\sum_k P(X=k)=1

。

代表离散分布：二项分布处理多次抛硬币正面朝上的次数；泊松分布处理一定时间内事件发生次数，如顾客来访人数等。

② 连续随机变量 — 在区间内取无穷多个值。单点（如恰好 170.00cm）的概率为

0

，因为曲线下「一点」的面积为 0。用概率密度函数(PDF)表示区间上的概率（如 170–180cm）。不用表格，用函数与曲线表示。

代表连续分布：自然界的大量数据（测量误差、分数分布等）所服从的钟形正态分布最具代表性。

概率分布是「取哪些值、各有多少概率」的规则。上图所示的正态(连续)、泊松(离散)、二项(离散)三种掌握后，即可覆盖 AI 中的多数情形。

概率质量函数(PMF)是离散随机变量各取值

k

的概率

P(X=k)

。在条形图中，条的高度即为该概率，所有条的高度之和为 1。下图是三种常见分布。

与图的对应 — 图1（上）：左侧正态为连续(曲线)，中间泊松与右侧二项为离散(条形)。图2将离散(条形)与连续(曲线)并排比较。AI 中：正态用于噪声与回归，泊松用于事件次数，二项用于成功次数与二分类概率。

概率分布的条件（离散） — PMF 是各取值

k

的概率

P(X=k)

。满足

\sum_k P(X=k)=1

。（例：骰子

P(1)+\cdots+P(6)=1

。）

通俗说：离散情形下，所有可能取值的概率加起来必须等于 1。就像骰子，1 到 6 每个面出现的概率加起来是 1。

概率分布的条件（连续） — PDF

f(x)

给出区间概率：

P(a\le X\le b)=\int_a^b f(x)\,dx

，总面积为

\int_{-\infty}^{\infty} f(x)\,dx=1

。

通俗说：连续情形下，曲线下的面积表示概率。X 落在 [a,b] 的概率就是从 a 到 b 的曲线下面积；整条曲线下的总面积等于 1。

期望（均值） — 离散：

E[X]=\sum_k x_k\, P(X=k)

，连续用积分。即“按概率加权的平均”。

通俗说：期望就是“每个取值乘上其概率再全部加起来”。例如骰子：(1×1/6)+(2×1/6)+…+(6×1/6)=3.5，即按概率加权的平均。

方差 —

\mathrm{Var}(X)=E[(X-E[X])^2]

。标准差

\sigma=\sqrt{\mathrm{Var}(X)}

。Ch11 会详细讲解。

通俗说：方差描述“相对平均的离散程度”。先算（每个取值−平均）的平方，再按概率取平均得到方差；方差的平方根就是标准差。

正态分布（连续） — 密度

f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-(x-\mu)^2/(2\sigma^2)}

。

\mu

为均值，

\sigma

为标准差。

通俗说：以均值 μ 为中心、左右对称的钟形曲线。σ（标准差）越大曲线越扁越宽，越小曲线越尖。身高、测量误差、噪声等很多自然现象都近似服从正态分布。

泊松分布（离散） —

P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}

（

k=0,1,2,\ldots

）。

\lambda

为平均发生次数。

通俗说：用来描述“在固定时间或范围内事件发生次数”的分布。λ 是平均发生次数，公式给出恰好发生 k 次的概率。条形图通常向一侧偏。

二项分布（离散） —

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

。

n

为试验次数，

p

为每次成功概率。

通俗说：同一试验做 n 次，成功次数为 k 的概率由该公式给出。p 是单次成功的概率。例如掷 n 次硬币正面朝上的次数，常得到中间高、两边低的对称条形图。

预测时用「可能取值及其概率」表示，就是随机变量与分布。图中的三种分布在 AI 中用来表示不确定性。

AI 与图 — (正态) 用于回归、噪声、潜在空间；(泊松) 用于浏览量、点击量、事件次数；(二项) 用于二分类与成功概率。softmax、采样与交叉熵损失都与这些分布相关。

日常 — 游客数(离散)、降雨量·灯泡寿命·等车时间(连续)。区分可数与连续即与图中的条形(离散)和曲线(连续)对应。

AI 中 — 图中正态用于误差与高斯噪声，泊松用于计数与词频，二项用于类别概率与成败建模。Ch11、Ch12 会进一步讲均值、方差与正态分布。

离散随机变量：① 取值与概率 →

② 概率之和为 1 →

③ 期望 =

\sum

(取值)×(概率)。

概率之和 — 如

P(X=1)+P(X=2)+P(X=3)=1

。分母为 6 时

a/6+b/6+c/6=1

即

a+b+c=6

，知二求一。

期望 —

E[X]=x_1 p_1+x_2 p_2+x_3 p_3

。分母为 6 时

6E[X]

为整数，常考 6×期望。

方差 —

\mathrm{Var}(X)=E[X^2]-(E[X])^2

。分母为 6 时 $36\times$ 方差 可用

6\sum n_i x_i^2-(\sum n_i x_i)^2

（

n_i

为分子，

x_i

为取值）算成整数。

最简单：概率

1/6,\,2/6,\,c/6

之和为 1。

1+2+c=6

→ $c=3$ 。

以下为按题型的完整示例。请按 题目 → 解 → 答 阅读。

例（概率之和）

三个概率为 1/6、2/6、c/6 且和为 1，求 c。

解

分母为 6 时分子之和为 6：

1+2+c=6

→

c=3

。

→ 答 3

例（6×期望）

取值 1、2、3 对应概率 1/6、2/6、3/6，求

6E[X]

。

解

6E[X]=1\times 1+2\times 2+3\times 3=14

。

→ 答 14

例（36×方差）

同一分布，分子

n_1=1,n_2=2,n_3=3

，取值

x_i=1,2,3

，求

36\times\mathrm{Var}(X)

。

解

\sum n_i x_i=14

，

\sum n_i x_i^2=36

，故

36\times\mathrm{Var}(X)=6\cdot36-14^2=20

。

→ 答 20

例（众数）

取值 1、2、3 对应概率 1/6、2/6、3/6，求众数。

解

概率最大的是

X=3

（

3/6

）。

→ 答 3

例（累积概率分子）

同一分布，将

P(X\le 2)

写成

k/6

，求分子

k

。

解

P(X\le 2)=1/6+2/6=3/6

。分子 3。

→ 答 3

什么是随机变量与概率分布

随机变量(Random Variable)把一次试验（实验）的结果对应成数字，一般记作

X

。例如约定硬币正面为

1

、反面为

0

的瞬间，掷硬币这一现实事件就变成数学上的变量

X

。概率分布则是像地图一样、一眼看出这些数字各自以多大概率出现的规则。

① 离散随机变量 — 只取有限或可数个值。可用表格、函数、条形图表示；各取值

k

的概率

P(X=k)

称为概率质量函数(PMF)，满足

\sum_k P(X=k)=1

。

代表离散分布：二项分布处理多次抛硬币正面朝上的次数；泊松分布处理一定时间内事件发生次数，如顾客来访人数等。

② 连续随机变量 — 在区间内取无穷多个值。单点（如恰好 170.00cm）的概率为

0

，因为曲线下「一点」的面积为 0。用概率密度函数(PDF)表示区间上的概率（如 170–180cm）。不用表格，用函数与曲线表示。

代表连续分布：自然界的大量数据（测量误差、分数分布等）所服从的钟形正态分布最具代表性。

概率分布是「取哪些值、各有多少概率」的规则。上图所示的正态(连续)、泊松(离散)、二项(离散)三种掌握后，即可覆盖 AI 中的多数情形。

概率质量函数(PMF)是离散随机变量各取值

k

的概率

P(X=k)

。在条形图中，条的高度即为该概率，所有条的高度之和为 1。下图是三种常见分布。

概率分布的条件（离散） — PMF 是各取值

k

的概率

P(X=k)

。满足

\sum_k P(X=k)=1

。（例：骰子

P(1)+\cdots+P(6)=1

。）

通俗说：离散情形下，所有可能取值的概率加起来必须等于 1。就像骰子，1 到 6 每个面出现的概率加起来是 1。

概率分布的条件（连续） — PDF

f(x)

给出区间概率：

P(a\le X\le b)=\int_a^b f(x)\,dx

，总面积为

\int_{-\infty}^{\infty} f(x)\,dx=1

。

通俗说：连续情形下，曲线下的面积表示概率。X 落在 [a,b] 的概率就是从 a 到 b 的曲线下面积；整条曲线下的总面积等于 1。

期望（均值） — 离散：

E[X]=\sum_k x_k\, P(X=k)

，连续用积分。即“按概率加权的平均”。

通俗说：期望就是“每个取值乘上其概率再全部加起来”。例如骰子：(1×1/6)+(2×1/6)+…+(6×1/6)=3.5，即按概率加权的平均。

方差 —

\mathrm{Var}(X)=E[(X-E[X])^2]

。标准差

\sigma=\sqrt{\mathrm{Var}(X)}

。Ch11 会详细讲解。

通俗说：方差描述“相对平均的离散程度”。先算（每个取值−平均）的平方，再按概率取平均得到方差；方差的平方根就是标准差。

正态分布（连续） — 密度

f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-(x-\mu)^2/(2\sigma^2)}

。

\mu

为均值，

\sigma

为标准差。

泊松分布（离散） —

P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}

（

k=0,1,2,\ldots

）。

\lambda

为平均发生次数。

通俗说：用来描述“在固定时间或范围内事件发生次数”的分布。λ 是平均发生次数，公式给出恰好发生 k 次的概率。条形图通常向一侧偏。

二项分布（离散） —

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

。

n

为试验次数，

p

为每次成功概率。

预测时用「可能取值及其概率」表示，就是随机变量与分布。图中的三种分布在 AI 中用来表示不确定性。

日常 — 游客数(离散)、降雨量·灯泡寿命·等车时间(连续)。区分可数与连续即与图中的条形(离散)和曲线(连续)对应。

AI 中 — 图中正态用于误差与高斯噪声，泊松用于计数与词频，二项用于类别概率与成败建模。Ch11、Ch12 会进一步讲均值、方差与正态分布。

离散随机变量：① 取值与概率 →

② 概率之和为 1 →

③ 期望 =

\sum

(取值)×(概率)。

概率之和 — 如

P(X=1)+P(X=2)+P(X=3)=1

。分母为 6 时

a/6+b/6+c/6=1

即

a+b+c=6

，知二求一。

期望 —

E[X]=x_1 p_1+x_2 p_2+x_3 p_3

。分母为 6 时

6E[X]

为整数，常考 6×期望。

方差 —

\mathrm{Var}(X)=E[X^2]-(E[X])^2

。分母为 6 时 $36\times$ 方差 可用

6\sum n_i x_i^2-(\sum n_i x_i)^2

（

n_i

为分子，

x_i

为取值）算成整数。

最简单：概率

1/6,\,2/6,\,c/6

之和为 1。

1+2+c=6

→ $c=3$ 。

以下为按题型的完整示例。请按 题目 → 解 → 答 阅读。

例（概率之和）

三个概率为 1/6、2/6、c/6 且和为 1，求 c。

解

分母为 6 时分子之和为 6：

1+2+c=6

→

c=3

。

→ 答 3

例（6×期望）

取值 1、2、3 对应概率 1/6、2/6、3/6，求

6E[X]

。

解

6E[X]=1\times 1+2\times 2+3\times 3=14

。

→ 答 14

例（36×方差）

同一分布，分子

n_1=1,n_2=2,n_3=3

，取值

x_i=1,2,3

，求

36\times\mathrm{Var}(X)

。

解

\sum n_i x_i=14

，

\sum n_i x_i^2=36

，故

36\times\mathrm{Var}(X)=6\cdot36-14^2=20

。

→ 答 20

例（众数）

取值 1、2、3 对应概率 1/6、2/6、3/6，求众数。

解

概率最大的是

X=3

（

3/6

）。

→ 答 3

例（累积概率分子）

同一分布，将

P(X\le 2)

写成

k/6

，求分子

k

。

解

P(X\le 2)=1/6+2/6=3/6

。分子 3。

→ 答 3