Chapter 11

均值与方差

均值(期望)表示分布的中心,方差表示离散程度。在 AI 中用于预测、损失与正则化。

home.mathDiagramTitle

home.mathDiagramDescription

均值与方差

什么是均值与方差

均值(期望)是分布的重心方差表示相对均值的离散程度标准差是方差的平方根,用与数据相同的单位表示「离均值通常有多远」。
均值 — 如骰子 (1+…+6)/6=3.5、班级平均分、需求预测的「预期值」。图中红线为均值 μ\mu
方差 — (取值−均值)² 按概率加权平均。方差大则离散大。标准差 σ=方差\sigma=\sqrt{\text{方差}} 把方差开方回原单位(分、kg 等),便于理解:如「平均 70 分、σ=10」表示很多分数在 60~80 左右。
均值只告诉中心方差和标准差告诉不确定性·离散程度。在 AI 中用于置信区间、损失与正则化。
AI 中常用概念 — 下表整理众数、均值、最小·最大、中位数的含义及在 AI 中的用法。
概念含义AI 中的用法
众数概率最大的取值;多次试验中最常出现的结果。分类时选取「最可能的类别」时使用;softmax 输出的 argmax 即为众数。
均值(期望)分布的重心;取值×概率之和,表示「期望得到的值」。用于回归预测、MSE 等损失、强化学习中的奖励期望等。
最小·最大变量所在区间 [min, max],用最小值、最大值界定范围。用于损失最小化(梯度下降)、数值裁剪、归一化区间设定等。
中位数按大小排序后位于正中间的值;与均值不同,受极端值(异常值)影响较小。在数据含较多异常值或需要稳健统计量时使用。
模型预测给出一个数时,通常就是均值(期望)。例如「明日销售额约一千万」时,一千万就是期望值。标准差大表示预测不确定、波动大。
不确定性 — 方差或标准差大时,值在均值周围分散得开,就能知道「有多可信」。医疗、金融、自动驾驶等需要置信区间(如 均值±2σ)时都会用到。
损失函数 — 回归里常用的 MSE(均方误差)是「误差平方」的平均,和方差结构相同,所以训练可以理解为在减小预测误差的方差。
正则化与 dropout — 通过控制或减小权重/激活的方差来调节。方差过大会导致预测不稳定;正则化有助于防止过拟合并提高泛化。
AI 整体 — 贝叶斯网络、不确定性估计模型会同时预测均值和方差(或 σ)。生成模型(VAE、扩散)中潜空间的均值与方差也是核心。
日常 — 考试成绩用「平均 70 分、标准差 10 分」同时看中心离散程度。身高体重分布、需求预测(预期值±误差)、质量管理(规格±σ)同理。
回归 — 预测值一般是条件期望:「给定输入时输出的平均」。损失取 MSE(误差平方的平均),并最小化这个平均。
分类 — 输出各类概率后,取概率最大的一类(众数)作为预测类别;softmax 的 argmax 就是在做这件事。
强化学习 — 用奖励的期望评价策略,学习目标是最大化「采取该动作后未来奖励的平均」。
不确定性估计 — 贝叶斯神经网络、集成、测试时 dropout 等会估计预测方差,用方差或 σ 表示「预测有多确定」。
数学脉络 — Ch10 定义期望与方差,Ch11 练习计算。Ch12 正态分布由均值 μ\mu 和标准差 σ\sigma 唯一确定。
离散情形:均值=取值×概率之和\text{取值}\times\text{概率之和}方差=E[X2](E[X])2E[X^2]-(E[X])^2。分母为 6 时,6×均值6\times\text{均值}36×方差36\times\text{方差}为整数。
均值取值×概率\text{取值}\times\text{概率}相加。分母 6 时 6×均值6\times\text{均值}为整数。
方差E[X2]E[X^2] 减去 (均值)2(\text{均值})^236×方差36\times\text{方差}为整数便于计算。
下面计算 6×均值6\times\text{均值}36×方差36\times\text{方差}、均值(整数)、众数、累积概率分子等。
例. 取值 1,2,3,概率 16\frac{1}{6}, 26\frac{2}{6}, 36\frac{3}{6}6×均值=1×1+2×2+3×3=146\times\text{均值} = 1\times1+2\times2+3\times3 = 14
例. 同一分布下 36×方差=6i(nixi2)(inixi)236\times\text{方差} = 6\sum_i (n_i x_i^2) - (\sum_i n_i x_i)^2