Chapter 11

均值与方差

均值（期望）表示分布的中心，方差表示离散程度。在 AI 中用于预测、损失与正则化。

home.mathDiagramDescription

均值与方差

什么是均值与方差

均值（期望）是分布的重心。方差表示相对均值的离散程度。标准差是方差的平方根，用与数据相同的单位表示「离均值通常有多远」。

均值 — 如骰子 (1+…+6)/6=3.5、班级平均分、需求预测的「预期值」。图中红线为均值

\mu

。

方差 — （取值−均值）² 按概率加权平均。方差大则离散大。标准差 $\sigma=\sqrt{\text{方差}}$ 把方差开方回原单位（分、kg 等），便于理解：如「平均 70 分、σ=10」表示很多分数在 60～80 左右。

均值只告诉中心，方差和标准差告诉不确定性·离散程度。在 AI 中用于置信区间、损失与正则化。

AI 中常用概念 — 下表整理众数、均值、最小·最大、中位数的含义及在 AI 中的用法。

概念	含义	AI 中的用法
众数	概率最大的取值；多次试验中最常出现的结果。	分类时选取「最可能的类别」时使用；softmax 输出的 argmax 即为众数。
均值（期望）	分布的重心；取值×概率之和，表示「期望得到的值」。	用于回归预测、MSE 等损失、强化学习中的奖励期望等。
最小·最大	变量所在区间 [min, max]，用最小值、最大值界定范围。	用于损失最小化（梯度下降）、数值裁剪、归一化区间设定等。
中位数	按大小排序后位于正中间的值；与均值不同，受极端值（异常值）影响较小。	在数据含较多异常值或需要稳健统计量时使用。

模型预测给出一个数时，通常就是均值（期望）。例如「明日销售额约一千万」时，一千万就是期望值。标准差大表示预测不确定、波动大。

不确定性 — 方差或标准差大时，值在均值周围分散得开，就能知道「有多可信」。医疗、金融、自动驾驶等需要置信区间（如均值±2σ）时都会用到。

损失函数 — 回归里常用的 MSE（均方误差）是「误差平方」的平均，和方差结构相同，所以训练可以理解为在减小预测误差的方差。

正则化与 dropout — 通过控制或减小权重/激活的方差来调节。方差过大会导致预测不稳定；正则化有助于防止过拟合并提高泛化。

AI 整体 — 贝叶斯网络、不确定性估计模型会同时预测均值和方差（或 σ）。生成模型（VAE、扩散）中潜空间的均值与方差也是核心。

日常 — 考试成绩用「平均 70 分、标准差 10 分」同时看中心和离散程度。身高体重分布、需求预测（预期值±误差）、质量管理（规格±σ）同理。

回归 — 预测值一般是条件期望：「给定输入时输出的平均」。损失取 MSE（误差平方的平均），并最小化这个平均。

分类 — 输出各类概率后，取概率最大的一类（众数）作为预测类别；softmax 的 argmax 就是在做这件事。

强化学习 — 用奖励的期望评价策略，学习目标是最大化「采取该动作后未来奖励的平均」。

不确定性估计 — 贝叶斯神经网络、集成、测试时 dropout 等会估计预测方差，用方差或 σ 表示「预测有多确定」。

数学脉络 — Ch10 定义期望与方差，Ch11 练习计算。Ch12 正态分布由均值

\mu

和标准差

\sigma

唯一确定。

离散情形：均值=

\text{取值}\times\text{概率之和}

，方差=

E[X^2]-(E[X])^2

。分母为 6 时，

6\times\text{均值}

、

36\times\text{方差}

为整数。

均值 —

\text{取值}\times\text{概率}

相加。分母 6 时

6\times\text{均值}

为整数。

方差 —

E[X^2]

减去

(\text{均值})^2

。

36\times\text{方差}

为整数便于计算。

下面计算

6\times\text{均值}

、

36\times\text{方差}

、均值（整数）、众数、累积概率分子等。

例. 取值 1,2,3，概率

\frac{1}{6}

\frac{2}{6}

\frac{3}{6}

→

6\times\text{均值} = 1\times1+2\times2+3\times3 = 14

。

例. 同一分布下

36\times\text{方差} = 6\sum_i (n_i x_i^2) - (\sum_i n_i x_i)^2

。