大家的AI
机器学习AI论文
Loading...

学习

🏅我的成就

Chapter 11

均值与方差:分布的中心与离散程度

均值(期望)表示分布的中心,方差表示离散程度。在 AI 中用于预测、损失与正则化。

按章节的数学图示

选择章节后,下方图示会切换为该章节内容。可一览基础数学的脉络。

均值与方差
123μP(x)x

柱高表示各取值的概率。红线是分布中心即均值(μ),紫色带表示距均值一个标准差(σ)的典型离散范围(μ±σ)。最高的柱是众数,即出现最频繁的取值。

什么是均值与方差

均值(期望)是分布的重心。方差表示相对均值的离散程度。标准差是方差的平方根,用与数据相同的单位表示「离均值通常有多远」。
均值 — 如骰子 (1+…+6)/6=3.5、班级平均分、需求预测的「预期值」。图中红线为均值 μ\muμ。
方差 — (取值−均值)² 按概率加权平均。方差大则离散大。标准差 σ=方差\sigma=\sqrt{\text{方差}}σ=方差​ 把方差开方回原单位(分、kg 等),便于理解:如「平均 70 分、σ=10」表示很多分数在 60~80 左右。
只知均值有风险——例如河流平均水深 1m,深处也可能超过 3m。这时需要方差才能管理这种风险(波动性)。在 AI 中我们不仅给出预测值(均值),还会一起看预测能有多大波动(方差)来衡量可信度。
AI 中常用概念 — 下表整理众数、均值、最小·最大、中位数的含义及在 AI 中的用法。
  • 概念众数
  • 含义概率最大的取值;多次试验中最常出现的结果。
  • AI 中的用法分类时选取「最可能的类别」时使用;softmax 输出的 argmax 即为众数。
  • 概念均值(期望)
  • 含义分布的重心;取值×概率之和,表示「期望得到的值」。
  • AI 中的用法用于回归预测、MSE 等损失、强化学习中的奖励期望等。
  • 概念最小·最大
  • 含义变量所在区间 [min, max],用最小值、最大值界定范围。
  • AI 中的用法用于损失最小化(梯度下降)、数值裁剪、归一化区间设定等。
  • 概念中位数
  • 含义按大小排序后位于正中间的值;与均值不同,受极端值(异常值)影响较小。
  • AI 中的用法在数据含较多异常值或需要稳健统计量时使用。
概念含义AI 中的用法
众数概率最大的取值;多次试验中最常出现的结果。分类时选取「最可能的类别」时使用;softmax 输出的 argmax 即为众数。
均值(期望)分布的重心;取值×概率之和,表示「期望得到的值」。用于回归预测、MSE 等损失、强化学习中的奖励期望等。
最小·最大变量所在区间 [min, max],用最小值、最大值界定范围。用于损失最小化(梯度下降)、数值裁剪、归一化区间设定等。
中位数按大小排序后位于正中间的值;与均值不同,受极端值(异常值)影响较小。在数据含较多异常值或需要稳健统计量时使用。
是预测准确度的衡量尺度。AI 给出的预测结果通常是其概率分布的期望。若该预测的方差很大,可以理解为模型对自己预测也缺乏信心。
将不确定性(Uncertainty)量化。在自动驾驶或医疗 AI 中,「有多确定」非常重要。利用标准差 σ\sigmaσ 设定置信区间,并计算结果超出该范围的风险,从而支持更安全的决策。
是损失函数(Loss Function)的设计原理。回归中最常用的 MSE(均方误差) 是真实值与预测值之差的平方的平均,数学上等价于最小化误差的方差。也就是说,减小方差就是在提升 AI 的能力。
是正规化(Normalization)的基准。权重方差过大时模型会变得敏感并出现过拟合(Overfitting)。通过保持或抑制方差的技术,使模型更稳定、更通用。
在日常生活中,均值与标准差也常成对使用。正如股票收益率「均值 5%、标准差 20%」能让人看出有收益但波动大、属于风险较高的股票一样,它们是定义数据性质的最基本语言。
回归 — 预测值一般是条件期望:「给定输入时输出的平均」。损失取 MSE(误差平方的平均),并最小化这个平均。
分类 — 输出各类概率后,取概率最大的一类(众数)作为预测类别;softmax 的 argmax 就是在做这件事。
强化学习 — 用奖励的期望评价策略,学习目标是最大化「采取该动作后未来奖励的平均」。
离散情形:均值=取值×概率之和\text{取值}\times\text{概率之和}取值×概率之和,方差=E[X2]−(E[X])2E[X^2]-(E[X])^2E[X2]−(E[X])2。分母为 6 时,6×均值6\times\text{均值}6×均值、36×方差36\times\text{方差}36×方差为整数。
均值 — 取值×概率\text{取值}\times\text{概率}取值×概率相加。分母 6 时 6×均值6\times\text{均值}6×均值为整数。
方差 — E[X2]E[X^2]E[X2] 减去 (均值)2(\text{均值})^2(均值)2。36×方差36\times\text{方差}36×方差为整数便于计算。
下面计算 6×均值6\times\text{均值}6×均值、36×方差36\times\text{方差}36×方差、均值(整数)、众数、累积概率分子等。
例. 取值 1,2,3,概率 16\frac{1}{6}61​, 26\frac{2}{6}62​, 36\frac{3}{6}63​ → 6×均值=1×1+2×2+3×3=146\times\text{均值} = 1\times1+2\times2+3\times3 = 146×均值=1×1+2×2+3×3=14。
例. 同一分布下 36×方差=6∑i(nixi2)−(∑inixi)236\times\text{方差} = 6\sum_i (n_i x_i^2) - (\sum_i n_i x_i)^236×方差=6∑i​(ni​xi2​)−(∑i​ni​xi​)2。
按题型解题
  • 类型6×均值
  • 说明6E[X]6 E[X]6E[X]
  • 求法∑(取值×分子)\sum (取值\times分子)∑(取值×分子)。分母为 6 时答案为整数。
  • 类型36×方差
  • 说明36×36\times36×方差
  • 求法6∑nixi2−(∑nixi)26\sum n_i x_i^2 - (\sum n_i x_i)^26∑ni​xi2​−(∑ni​xi​)2。nin_ini​=分子,xix_ixi​=取值。
  • 类型均值(整数)
  • 说明期望为整数形式
  • 求法(6×均值)/6 为整数时,题中常给整数。
  • 类型众数
  • 说明概率最大的取值
  • 求法柱最高的 xix_ixi​。
  • 类型累积分子
  • 说明P(X≤k)P(X\le k)P(X≤k) 的分子
  • 求法该取值及以下概率的分子之和。
类型说明求法
6×均值6E[X]6 E[X]6E[X]∑(取值×分子)\sum (取值\times分子)∑(取值×分子)。分母为 6 时答案为整数。
36×方差36×36\times36×方差6∑nixi2−(∑nixi)26\sum n_i x_i^2 - (\sum n_i x_i)^26∑ni​xi2​−(∑ni​xi​)2。nin_ini​=分子,xix_ixi​=取值。
均值(整数)期望为整数形式(6×均值)/6 为整数时,题中常给整数。
众数概率最大的取值柱最高的 xix_ixi​。
累积分子P(X≤k)P(X\le k)P(X≤k) 的分子该取值及以下概率的分子之和。

例(6×均值)
取值 1、2、3 对应概率 1/6、2/6、3/6,求 6×均值。
解
6E[X]=1×1+2×2+3×3=146E[X]=1\times 1+2\times 2+3\times 3=146E[X]=1×1+2×2+3×3=14。→ 答 14

例(36×方差)
同一分布 n1=1,n2=2,n3=3n_1=1,n_2=2,n_3=3n1​=1,n2​=2,n3​=3,x1=1,x2=2,x3=3x_1=1,x_2=2,x_3=3x1​=1,x2​=2,x3​=3。36×方差=6(1⋅1+2⋅4+3⋅9)−(1+4+9)2=6⋅36−196=2036\times\text{方差}=6(1\cdot 1+2\cdot 4+3\cdot 9)-(1+4+9)^2=6\cdot 36-196=2036×方差=6(1⋅1+2⋅4+3⋅9)−(1+4+9)2=6⋅36−196=20。→ 答 20(数值例)