Chapter 12
均匀分布与正态分布:从初始化到预测
均匀分布在区间上均匀分布概率,正态分布围绕均值呈钟形。在 AI 中用于初始化、噪声与先验。
按章节的数学图示
选择章节后,下方图示会切换为该章节内容。可一览基础数学的脉络。
均匀分布与正态分布:从初始化到预测
均匀分布在区间上均匀分布概率,正态分布围绕均值呈钟形。在 AI 中用于初始化、噪声与先验。
均匀分布与正态分布
世间大量连续数据都按一定规则分布。其中最基础的是均匀分布和正态分布,理解它们是把握 AI 内部运作的关键一步。前面章节学到的均值()和方差()这两个指标,就是决定这两种分布形状的「基因」。
均匀分布 — 在区间 内所有取值出现概率相同。画成图就是顶为平线的矩形。可以理解为把「骰子每一面等概率」推广到连续情形。在「不偏向任何一侧、给所有可能性同等机会」时使用。
均匀分布的中心均值是区间中点 。方差为 ,与区间长度()的平方成正比。区间越宽,越难猜中会取到哪个值(不确定性增加),方差也就越大。
正态分布 — 以均值为中心、左右对称的钟形(Bell-curve)分布。身高、考试成绩、测量误差等多数自然现象都近似服从它,故称「正态」。也称高斯分布;均值()决定钟顶位置,标准差()决定钟的宽度(离散程度)。
正态分布的妙处在于经验法则(68–95–99.7): 内约有 68% 的数据, 内约有 95%, 内约有 99.7%。掌握这条规则,就能快速判断数据离均值多远(是否异常值),并评估 AI 预测的可信度。
均匀分布代表「一无所知的空白状态」,正态分布代表「以均值为基准的自然状态」。AI 在训练开始时用均匀分布把权重均匀撒开(初始化),随后用正态分布刻画数据误差,一步步逼近正确答案。
先验信息的设定:在贝叶斯统计中,AI 在学习前持有的「先入之见」称为先验分布。想从完全公平的立场出发时用均匀分布;当有「参数在某个均值附近」的合理猜测时,则用正态分布来设计模型的基础能力。
误差的数学建模:世间所有数据都含有噪声。这些噪声彼此独立发生,叠加后最终会服从正态分布。AI 在去除图像噪声或恢复模糊语音时,若假定噪声呈正态分布再计算,就能得到准确得多的复原结果。
中心极限定理:这是统计学的根基。无论数据呈何种分布,只要大量抽样并求平均,这些平均值的分布都会惊人地接近正态分布。因此 AI 才能仅凭少量样本,借助正态分布去预测整体群体的特性。
深度学习中权重初始化往往决定训练的成败。像 Xavier、He 这类初始化技术会精细调节均匀/正态分布的方差,使数据信号能不失真地传递到网络深处。
权重初始化 — 若一开始把所有权重都设为 0,网络无法学习。因此用均匀或正态分布抽取随机数填入。使用方差较小的正态分布时,多数权重会集中在 0 附近,训练会更稳定、更快起步。
噪声 — VAE 从正态中采样潜在向量;扩散模型逐步加入再去除高斯噪声。
回归 — 假设误差为正态时,最小二乘(OLS)等价于最大似然。预测区间用 。
贝叶斯 — 先验常用均匀或正态,观测后求后验。神经网络权重也可设正态先验。
数学脉络 — Ch10 随机变量与分布、Ch11 均值与方差,Ch12 学习两种具体分布(均匀、正态)。掌握后更容易理解 AI 论文中的「初始化」「噪声」「先验」。
均匀分布 :密度 ,均值 ,方差 。子区间 上的概率为长度比 。
正态分布:均值 ,方差 (标准差 )。可查表、计算器,或用 68-95-99.7( 约 68%, 约 95%)。
均匀示例: 上均值 ,方差 3。
以下为均匀与正态的按题型示例。
例(均匀:均值与方差)
区间 上均匀分布,求均值与方差。
解
均值 。方差 。
→ 均值 3,方差 3
例(均匀:区间概率)
上均匀,求 的概率。
解
区间长 ,总长 ,故 。
→ 答
例(正态:)
均值 70、标准差 10 的正态分布, 区间(60~80)内的比例?
解
经验法则约 68%。
→ 约 68%
例(正态:)
同一分布, 区间(50~90)内的比例?
解
经验法则约 95%。
→ 约 95%