Chapter 11

均值与方差：分布的中心与离散程度

均值（期望）表示分布的中心，方差表示离散程度。在 AI 中用于预测、损失与正则化。

按章节的数学图示

选择章节后，下方图示会切换为该章节内容。可一览基础数学的脉络。

均值与方差

柱高表示各取值的概率。红线是分布中心即均值(μ)，紫色带表示距均值一个标准差(σ)的典型离散范围(μ\pmσ)。最高的柱是众数，即出现最频繁的取值。

什么是均值与方差

均值（期望）是分布的重心。方差表示相对均值的离散程度。标准差是方差的平方根，用与数据相同的单位表示「离均值通常有多远」。

均值 — 如骰子 (1+…+6)/6=3.5、班级平均分、需求预测的「预期值」。图中红线为均值

\mu

。

方差 — （取值−均值）² 按概率加权平均。方差大则离散大。标准差 $\sigma=\sqrt{\text{方差}}$ 把方差开方回原单位（分、kg 等），便于理解：如「平均 70 分、σ=10」表示很多分数在 60～80 左右。

只知均值有风险——例如河流平均水深 1m，深处也可能超过 3m。这时需要方差才能管理这种风险（波动性）。在 AI 中我们不仅给出预测值（均值），还会一起看预测能有多大波动（方差）来衡量可信度。

AI 中常用概念 — 下表整理众数、均值、最小·最大、中位数的含义及在 AI 中的用法。

概念 $众数$
含义 $概率最大的取值；多次试验中最常出现的结果。$
AI 中的用法 $分类时选取「最可能的类别」时使用；softmax 输出的 argmax 即为众数。$

概念 $均值（期望）$
含义 $分布的重心；取值\times概率之和，表示「期望得到的值」。$
AI 中的用法 $用于回归预测、MSE 等损失、强化学习中的奖励期望等。$

概念 $最小\cdot最大$
含义 $变量所在区间 [min, max]，用最小值、最大值界定范围。$
AI 中的用法 $用于损失最小化（梯度下降）、数值裁剪、归一化区间设定等。$

概念 $中位数$
含义 $按大小排序后位于正中间的值；与均值不同，受极端值（异常值）影响较小。$
AI 中的用法 $在数据含较多异常值或需要稳健统计量时使用。$

概念	含义	AI 中的用法
众数	概率最大的取值；多次试验中最常出现的结果。	分类时选取「最可能的类别」时使用；softmax 输出的 argmax 即为众数。
均值（期望）	分布的重心；取值×概率之和，表示「期望得到的值」。	用于回归预测、MSE 等损失、强化学习中的奖励期望等。
最小·最大	变量所在区间 [min, max]，用最小值、最大值界定范围。	用于损失最小化（梯度下降）、数值裁剪、归一化区间设定等。
中位数	按大小排序后位于正中间的值；与均值不同，受极端值（异常值）影响较小。	在数据含较多异常值或需要稳健统计量时使用。

是预测准确度的衡量尺度。AI 给出的预测结果通常是其概率分布的期望。若该预测的方差很大，可以理解为模型对自己预测也缺乏信心。

将不确定性（Uncertainty）量化。在自动驾驶或医疗 AI 中，「有多确定」非常重要。利用标准差

\sigma

设定置信区间，并计算结果超出该范围的风险，从而支持更安全的决策。

是损失函数（Loss Function）的设计原理。回归中最常用的 MSE（均方误差） 是真实值与预测值之差的平方的平均，数学上等价于最小化误差的方差。也就是说，减小方差就是在提升 AI 的能力。

是正规化（Normalization）的基准。权重方差过大时模型会变得敏感并出现过拟合（Overfitting）。通过保持或抑制方差的技术，使模型更稳定、更通用。

在日常生活中，均值与标准差也常成对使用。正如股票收益率「均值 5%、标准差 20%」能让人看出有收益但波动大、属于风险较高的股票一样，它们是定义数据性质的最基本语言。

回归 — 预测值一般是条件期望：「给定输入时输出的平均」。损失取 MSE（误差平方的平均），并最小化这个平均。

分类 — 输出各类概率后，取概率最大的一类（众数）作为预测类别；softmax 的 argmax 就是在做这件事。

强化学习 — 用奖励的期望评价策略，学习目标是最大化「采取该动作后未来奖励的平均」。

离散情形：均值 =

\sum

取值×概率，即

E[X]=\sum_i x_i p_i

。

方差 =

E[X^2]-(E[X])^2

— 先求「取值²×概率」之和得

E[X^2]

，再减均值的平方。

分母为 6 时 $6\times$ 均值、 $36\times$ 方差 常为整数，便于算题。众数为概率最大的取值；累积

P(X\le k)

为

k

及以下各取值的概率之和。

最简单：取值 1,2,3，概率

\frac{1}{6},\frac{2}{6},\frac{3}{6}

6E[X]=1\cdot1+2\cdot2+3\cdot3=

14。

以下为按题型的完整示例。请按 题目 → 解 → 答 阅读。

例（6×均值）

取值 1、2、3 对应概率 1/6、2/6、3/6，求

6E[X]

。

解

6E[X]=1\times 1+2\times 2+3\times 3=14

。

→ 答 14

例（36×方差）

同一分布，

n_1=1,n_2=2,n_3=3

，

x_i=1,2,3

，求

36\times\mathrm{Var}(X)

。

解

6\sum n_i x_i^2-(\sum n_i x_i)^2=6(1+8+27)-14^2=20

。

→ 答 20

例（由 6×均值求期望）

已知

6E[X]=18

，求

E[X]

。

解

E[X]=18/6=3

。

→ 答 3

例（众数）

取值 1、2、3 对应概率 1/6、2/6、3/6，求众数。

解

概率最大的是 3。

→ 答 3

例（累积分子）

将

P(X\le 2)

写成

k/6

，求

k

。

解

P(X\le 2)=1/6+2/6=3/6

。分子 3。

→ 答 3

什么是均值与方差

均值（期望）是分布的重心。方差表示相对均值的离散程度。标准差是方差的平方根，用与数据相同的单位表示「离均值通常有多远」。

均值 — 如骰子 (1+…+6)/6=3.5、班级平均分、需求预测的「预期值」。图中红线为均值

\mu

。

AI 中常用概念 — 下表整理众数、均值、最小·最大、中位数的含义及在 AI 中的用法。

概念 $众数$
含义 $概率最大的取值；多次试验中最常出现的结果。$
AI 中的用法 $分类时选取「最可能的类别」时使用；softmax 输出的 argmax 即为众数。$

概念 $均值（期望）$
含义 $分布的重心；取值\times概率之和，表示「期望得到的值」。$
AI 中的用法 $用于回归预测、MSE 等损失、强化学习中的奖励期望等。$

概念 $最小\cdot最大$
含义 $变量所在区间 [min, max]，用最小值、最大值界定范围。$
AI 中的用法 $用于损失最小化（梯度下降）、数值裁剪、归一化区间设定等。$

概念 $中位数$
含义 $按大小排序后位于正中间的值；与均值不同，受极端值（异常值）影响较小。$
AI 中的用法 $在数据含较多异常值或需要稳健统计量时使用。$

概念	含义	AI 中的用法
众数	概率最大的取值；多次试验中最常出现的结果。	分类时选取「最可能的类别」时使用；softmax 输出的 argmax 即为众数。
均值（期望）	分布的重心；取值×概率之和，表示「期望得到的值」。	用于回归预测、MSE 等损失、强化学习中的奖励期望等。
最小·最大	变量所在区间 [min, max]，用最小值、最大值界定范围。	用于损失最小化（梯度下降）、数值裁剪、归一化区间设定等。
中位数	按大小排序后位于正中间的值；与均值不同，受极端值（异常值）影响较小。	在数据含较多异常值或需要稳健统计量时使用。

是预测准确度的衡量尺度。AI 给出的预测结果通常是其概率分布的期望。若该预测的方差很大，可以理解为模型对自己预测也缺乏信心。

将不确定性（Uncertainty）量化。在自动驾驶或医疗 AI 中，「有多确定」非常重要。利用标准差

\sigma

设定置信区间，并计算结果超出该范围的风险，从而支持更安全的决策。

是正规化（Normalization）的基准。权重方差过大时模型会变得敏感并出现过拟合（Overfitting）。通过保持或抑制方差的技术，使模型更稳定、更通用。

回归 — 预测值一般是条件期望：「给定输入时输出的平均」。损失取 MSE（误差平方的平均），并最小化这个平均。

分类 — 输出各类概率后，取概率最大的一类（众数）作为预测类别；softmax 的 argmax 就是在做这件事。

强化学习 — 用奖励的期望评价策略，学习目标是最大化「采取该动作后未来奖励的平均」。

离散情形：均值 =

\sum

取值×概率，即

E[X]=\sum_i x_i p_i

。

方差 =

E[X^2]-(E[X])^2

— 先求「取值²×概率」之和得

E[X^2]

，再减均值的平方。

分母为 6 时 $6\times$ 均值、 $36\times$ 方差 常为整数，便于算题。众数为概率最大的取值；累积

P(X\le k)

为

k

及以下各取值的概率之和。

最简单：取值 1,2,3，概率

\frac{1}{6},\frac{2}{6},\frac{3}{6}

6E[X]=1\cdot1+2\cdot2+3\cdot3=

14。

以下为按题型的完整示例。请按 题目 → 解 → 答 阅读。

例（6×均值）

取值 1、2、3 对应概率 1/6、2/6、3/6，求

6E[X]

。

解

6E[X]=1\times 1+2\times 2+3\times 3=14

。

→ 答 14

例（36×方差）

同一分布，

n_1=1,n_2=2,n_3=3

，

x_i=1,2,3

，求

36\times\mathrm{Var}(X)

。

解

6\sum n_i x_i^2-(\sum n_i x_i)^2=6(1+8+27)-14^2=20

。

→ 答 20

例（由 6×均值求期望）

已知

6E[X]=18

，求

E[X]

。

解

E[X]=18/6=3

。

→ 答 3

例（众数）

取值 1、2、3 对应概率 1/6、2/6、3/6，求众数。

解

概率最大的是 3。

→ 答 3

例（累积分子）

将

P(X\le 2)

写成

k/6

，求

k

。

解

P(X\le 2)=1/6+2/6=3/6

。分子 3。

→ 答 3