大家的AI
机器学习AI论文
Loading...

学习

🏅我的成就

Chapter 12

均匀分布与正态分布:从初始化到预测

均匀分布在区间上均匀分布概率,正态分布围绕均值呈钟形。在 AI 中用于初始化、噪声与先验。

按章节的数学图示

选择章节后,下方图示会切换为该章节内容。可一览基础数学的脉络。

均匀分布与正态分布:从初始化到预测

UniformNormal

均匀分布在区间上均匀分布概率,正态分布围绕均值呈钟形。在 AI 中用于初始化、噪声与先验。

均匀分布与正态分布

世间大量连续数据都按一定规则分布。其中最基础的是均匀分布和正态分布,理解它们是把握 AI 内部运作的关键一步。前面章节学到的均值(μ\muμ)和方差(σ2\sigma^2σ2)这两个指标,就是决定这两种分布形状的「基因」。
均匀分布 — 在区间 [a,b][a,b][a,b] 内所有取值出现概率相同。画成图就是顶为平线的矩形。可以理解为把「骰子每一面等概率」推广到连续情形。在「不偏向任何一侧、给所有可能性同等机会」时使用。
均匀分布的中心均值是区间中点 (a+b)/2(a+b)/2(a+b)/2。方差为 (b−a)2/12(b-a)^2/12(b−a)2/12,与区间长度(b−ab-ab−a)的平方成正比。区间越宽,越难猜中会取到哪个值(不确定性增加),方差也就越大。
正态分布 — 以均值为中心、左右对称的钟形(Bell-curve)分布。身高、考试成绩、测量误差等多数自然现象都近似服从它,故称「正态」。也称高斯分布;均值(μ\muμ)决定钟顶位置,标准差(σ\sigmaσ)决定钟的宽度(离散程度)。
正态分布的妙处在于经验法则(68–95–99.7):μ±1σ\mu \pm 1\sigmaμ±1σ 内约有 68% 的数据,μ±2σ\mu \pm 2\sigmaμ±2σ 内约有 95%,μ±3σ\mu \pm 3\sigmaμ±3σ 内约有 99.7%。掌握这条规则,就能快速判断数据离均值多远(是否异常值),并评估 AI 预测的可信度。
均匀分布代表「一无所知的空白状态」,正态分布代表「以均值为基准的自然状态」。AI 在训练开始时用均匀分布把权重均匀撒开(初始化),随后用正态分布刻画数据误差,一步步逼近正确答案。
先验信息的设定:在贝叶斯统计中,AI 在学习前持有的「先入之见」称为先验分布。想从完全公平的立场出发时用均匀分布;当有「参数在某个均值附近」的合理猜测时,则用正态分布来设计模型的基础能力。
误差的数学建模:世间所有数据都含有噪声。这些噪声彼此独立发生,叠加后最终会服从正态分布。AI 在去除图像噪声或恢复模糊语音时,若假定噪声呈正态分布再计算,就能得到准确得多的复原结果。
中心极限定理:这是统计学的根基。无论数据呈何种分布,只要大量抽样并求平均,这些平均值的分布都会惊人地接近正态分布。因此 AI 才能仅凭少量样本,借助正态分布去预测整体群体的特性。
深度学习中权重初始化往往决定训练的成败。像 Xavier、He 这类初始化技术会精细调节均匀/正态分布的方差,使数据信号能不失真地传递到网络深处。
权重初始化 — 若一开始把所有权重都设为 0,网络无法学习。因此用均匀或正态分布抽取随机数填入。使用方差较小的正态分布时,多数权重会集中在 0 附近,训练会更稳定、更快起步。
噪声 — VAE 从正态中采样潜在向量;扩散模型逐步加入再去除高斯噪声。
回归 — 假设误差为正态时,最小二乘(OLS)等价于最大似然。预测区间用 μ±kσ\mu \pm k\sigmaμ±kσ。
贝叶斯 — 先验常用均匀或正态,观测后求后验。神经网络权重也可设正态先验。
数学脉络 — Ch10 随机变量与分布、Ch11 均值与方差,Ch12 学习两种具体分布(均匀、正态)。掌握后更容易理解 AI 论文中的「初始化」「噪声」「先验」。
均匀 — 区间 [a,b][a,b][a,b] 上密度 1/(b−a)1/(b-a)1/(b−a),均值 (a+b)/2(a+b)/2(a+b)/2,方差 (b−a)2/12(b-a)^2/12(b−a)2/12。正态 — 均值 μ\muμ,方差 σ2\sigma^2σ2,区间概率查标准正态表或计算器。
例(均匀). 区间 [0,6][0,6][0,6] 上均匀分布则均值为 333,方差 36/12=336/12=336/12=3,标准差 3\sqrt{3}3​。
例(正态). 均值 707070、标准差 101010 的正态分布中,约 68% 在 60∼8060\sim8060∼80,约 95% 在 50∼9050\sim9050∼90。
按题型解题
  • 类型均匀分布
  • 说明区间 [a,b][a,b][a,b] 上均匀
  • 求法均值 (a+b)/2(a+b)/2(a+b)/2,方差 (b−a)2/12(b-a)^2/12(b−a)2/12,标准差 (b−a)2/12\sqrt{(b-a)^2/12}(b−a)2/12​。
  • 类型正态分布
  • 说明均值 μ\muμ,标准差 σ\sigmaσ
  • 求法区间概率查标准正态表或 68-95-99.7 法则。μ±σ\mu\pm\sigmaμ±σ 内约 68%。
类型说明求法
均匀分布区间 [a,b][a,b][a,b] 上均匀均值 (a+b)/2(a+b)/2(a+b)/2,方差 (b−a)2/12(b-a)^2/12(b−a)2/12,标准差 (b−a)2/12\sqrt{(b-a)^2/12}(b−a)2/12​。
正态分布均值 μ\muμ,标准差 σ\sigmaσ区间概率查标准正态表或 68-95-99.7 法则。μ±σ\mu\pm\sigmaμ±σ 内约 68%。

例(均匀)
区间 [0,6][0,6][0,6] 上均匀分布的均值与方差。
解
均值 (0+6)/2=3(0+6)/2=3(0+6)/2=3。方差 (6−0)2/12=36/12=3(6-0)^2/12=36/12=3(6−0)2/12=36/12=3。→ 均值 3,方差 3

例(正态)
均值 70、标准差 10 的正态分布中,μ±σ\mu\pm\sigmaμ±σ 区间(60~80)内的比例?
解
经验法则知约 68%。→ 约 68%