大家的AI
机器学习AI论文
Loading...

学习

🏅我的成就

Chapter 11

均值与方差:分布的中心与离散程度

均值(期望)表示分布的中心,方差表示离散程度。在 AI 中用于预测、损失与正则化。

按章节的数学图示

选择章节后,下方图示会切换为该章节内容。可一览基础数学的脉络。

均值与方差
123μP(x)x

柱高表示各取值的概率。红线是分布中心即均值(μ),紫色带表示距均值一个标准差(σ)的典型离散范围(μ±σ)。最高的柱是众数,即出现最频繁的取值。

什么是均值与方差

均值(期望)是分布的重心。方差表示相对均值的离散程度。标准差是方差的平方根,用与数据相同的单位表示「离均值通常有多远」。
均值 — 如骰子 (1+…+6)/6=3.5、班级平均分、需求预测的「预期值」。图中红线为均值 μ\muμ。
方差 — (取值−均值)² 按概率加权平均。方差大则离散大。标准差 σ=方差\sigma=\sqrt{\text{方差}}σ=方差​ 把方差开方回原单位(分、kg 等),便于理解:如「平均 70 分、σ=10」表示很多分数在 60~80 左右。
只知均值有风险——例如河流平均水深 1m,深处也可能超过 3m。这时需要方差才能管理这种风险(波动性)。在 AI 中我们不仅给出预测值(均值),还会一起看预测能有多大波动(方差)来衡量可信度。
AI 中常用概念 — 下表整理众数、均值、最小·最大、中位数的含义及在 AI 中的用法。
  • 概念众数
  • 含义概率最大的取值;多次试验中最常出现的结果。
  • AI 中的用法分类时选取「最可能的类别」时使用;softmax 输出的 argmax 即为众数。
  • 概念均值(期望)
  • 含义分布的重心;取值×概率之和,表示「期望得到的值」。
  • AI 中的用法用于回归预测、MSE 等损失、强化学习中的奖励期望等。
  • 概念最小·最大
  • 含义变量所在区间 [min, max],用最小值、最大值界定范围。
  • AI 中的用法用于损失最小化(梯度下降)、数值裁剪、归一化区间设定等。
  • 概念中位数
  • 含义按大小排序后位于正中间的值;与均值不同,受极端值(异常值)影响较小。
  • AI 中的用法在数据含较多异常值或需要稳健统计量时使用。
概念含义AI 中的用法
众数概率最大的取值;多次试验中最常出现的结果。分类时选取「最可能的类别」时使用;softmax 输出的 argmax 即为众数。
均值(期望)分布的重心;取值×概率之和,表示「期望得到的值」。用于回归预测、MSE 等损失、强化学习中的奖励期望等。
最小·最大变量所在区间 [min, max],用最小值、最大值界定范围。用于损失最小化(梯度下降)、数值裁剪、归一化区间设定等。
中位数按大小排序后位于正中间的值;与均值不同,受极端值(异常值)影响较小。在数据含较多异常值或需要稳健统计量时使用。
是预测准确度的衡量尺度。AI 给出的预测结果通常是其概率分布的期望。若该预测的方差很大,可以理解为模型对自己预测也缺乏信心。
将不确定性(Uncertainty)量化。在自动驾驶或医疗 AI 中,「有多确定」非常重要。利用标准差 σ\sigmaσ 设定置信区间,并计算结果超出该范围的风险,从而支持更安全的决策。
是损失函数(Loss Function)的设计原理。回归中最常用的 MSE(均方误差) 是真实值与预测值之差的平方的平均,数学上等价于最小化误差的方差。也就是说,减小方差就是在提升 AI 的能力。
是正规化(Normalization)的基准。权重方差过大时模型会变得敏感并出现过拟合(Overfitting)。通过保持或抑制方差的技术,使模型更稳定、更通用。
在日常生活中,均值与标准差也常成对使用。正如股票收益率「均值 5%、标准差 20%」能让人看出有收益但波动大、属于风险较高的股票一样,它们是定义数据性质的最基本语言。
回归 — 预测值一般是条件期望:「给定输入时输出的平均」。损失取 MSE(误差平方的平均),并最小化这个平均。
分类 — 输出各类概率后,取概率最大的一类(众数)作为预测类别;softmax 的 argmax 就是在做这件事。
强化学习 — 用奖励的期望评价策略,学习目标是最大化「采取该动作后未来奖励的平均」。
离散情形:均值 = ∑\sum∑ 取值×概率,即 E[X]=∑ixipiE[X]=\sum_i x_i p_iE[X]=∑i​xi​pi​。
方差 = E[X2]−(E[X])2E[X^2]-(E[X])^2E[X2]−(E[X])2 — 先求「取值²×概率」之和得 E[X2]E[X^2]E[X2],再减均值的平方。
分母为 6 时 6×6\times6×均值、36×36\times36×方差 常为整数,便于算题。众数为概率最大的取值;累积 P(X≤k)P(X\le k)P(X≤k) 为 kkk 及以下各取值的概率之和。
最简单:取值 1,2,3,概率 16,26,36\frac{1}{6},\frac{2}{6},\frac{3}{6}61​,62​,63​
6E[X]=1⋅1+2⋅2+3⋅3=6E[X]=1\cdot1+2\cdot2+3\cdot3=6E[X]=1⋅1+2⋅2+3⋅3= 14。
以下为按题型的完整示例。请按 题目 → 解 → 答 阅读。

例(6×均值)
取值 1、2、3 对应概率 1/6、2/6、3/6,求 6E[X]6E[X]6E[X]。
解
6E[X]=1×1+2×2+3×3=146E[X]=1\times 1+2\times 2+3\times 3=146E[X]=1×1+2×2+3×3=14。
→ 答 14

例(36×方差)
同一分布,n1=1,n2=2,n3=3n_1=1,n_2=2,n_3=3n1​=1,n2​=2,n3​=3,xi=1,2,3x_i=1,2,3xi​=1,2,3,求 36×Var(X)36\times\mathrm{Var}(X)36×Var(X)。
解
6∑nixi2−(∑nixi)2=6(1+8+27)−142=206\sum n_i x_i^2-(\sum n_i x_i)^2=6(1+8+27)-14^2=206∑ni​xi2​−(∑ni​xi​)2=6(1+8+27)−142=20。
→ 答 20

例(由 6×均值求期望)
已知 6E[X]=186E[X]=186E[X]=18,求 E[X]E[X]E[X]。
解
E[X]=18/6=3E[X]=18/6=3E[X]=18/6=3。
→ 答 3

例(众数)
取值 1、2、3 对应概率 1/6、2/6、3/6,求众数。
解
概率最大的是 3。
→ 答 3

例(累积分子)
将 P(X≤2)P(X\le 2)P(X≤2) 写成 k/6k/6k/6,求 kkk。
解
P(X≤2)=1/6+2/6=3/6P(X\le 2)=1/6+2/6=3/6P(X≤2)=1/6+2/6=3/6。分子 3。
→ 答 3