大家的AI
机器学习AI论文
Loading...

学习

🏅我的成就

Chapter 10

随机变量与概率分布:用数字刻画不确定性

随机变量将试验结果用数字表示,概率分布则概括各取值出现的可能性。深度学习中用於预测与不确定性。

按章节的数学图示

选择章节后,下方图示会切换为该章节内容。可一览基础数学的脉络。

泊松:一侧偏(事件次数)· 二项:中间高、对称(成功次数)

正态分布
μf(x)x
泊松分布
0123456P(x)x

向一侧偏 → 事件「发生了几次」

λ=1.5(右偏)

二项分布
012345678910P(x)x

中间最高、对称 → n次中「成功次数」

n=10, p=0.5(对称)

图2:离散 vs 连续
离散(条形)连续(曲线)

什么是随机变量与概率分布

随机变量(Random Variable)把一次试验(实验)的结果对应成数字,一般记作 XXX。例如约定硬币正面为 111、反面为 000 的瞬间,掷硬币这一现实事件就变成数学上的变量 XXX。概率分布则是像地图一样、一眼看出这些数字各自以多大概率出现的规则。
① 离散随机变量 — 只取有限或可数个值。可用表格、函数、条形图表示;各取值 kkk 的概率 P(X=k)P(X=k)P(X=k) 称为概率质量函数(PMF),满足 ∑kP(X=k)=1\sum_k P(X=k)=1∑k​P(X=k)=1。
代表离散分布:二项分布处理多次抛硬币正面朝上的次数;泊松分布处理一定时间内事件发生次数,如顾客来访人数等。
② 连续随机变量 — 在区间内取无穷多个值。单点(如恰好 170.00cm)的概率为 000,因为曲线下「一点」的面积为 0。用概率密度函数(PDF)表示区间上的概率(如 170–180cm)。不用表格,用函数与曲线表示。
代表连续分布:自然界的大量数据(测量误差、分数分布等)所服从的钟形正态分布最具代表性。
概率分布是「取哪些值、各有多少概率」的规则。上图所示的正态(连续)、泊松(离散)、二项(离散)三种掌握后,即可覆盖 AI 中的多数情形。
概率质量函数(PMF)是离散随机变量各取值 kkk 的概率 P(X=k)P(X=k)P(X=k)。在条形图中,条的高度即为该概率,所有条的高度之和为 1。下图是三种常见分布。
与图的对应 — 图1(上):左侧正态为连续(曲线),中间泊松与右侧二项为离散(条形)。图2将离散(条形)与连续(曲线)并排比较。AI 中:正态用于噪声与回归,泊松用于事件次数,二项用于成功次数与二分类概率。
概率分布的条件(离散) — PMF 是各取值 kkk 的概率 P(X=k)P(X=k)P(X=k)。满足 ∑kP(X=k)=1\sum_k P(X=k)=1∑k​P(X=k)=1。(例:骰子 P(1)+⋯+P(6)=1P (1) +\cdots+P (6) =1P(1)+⋯+P(6)=1。)
通俗说:离散情形下,所有可能取值的概率加起来必须等于 1。就像骰子,1 到 6 每个面出现的概率加起来是 1。
概率分布的条件(连续) — PDF f(x)f(x)f(x) 给出区间概率:P(a≤X≤b)=∫abf(x) dxP(a\le X\le b)=\int_a^b f(x)\,dxP(a≤X≤b)=∫ab​f(x)dx,总面积为 ∫−∞∞f(x) dx=1\int_{-\infty}^{\infty} f(x)\,dx=1∫−∞∞​f(x)dx=1。
通俗说:连续情形下,曲线下的面积表示概率。X 落在 [a,b] 的概率就是从 a 到 b 的曲线下面积;整条曲线下的总面积等于 1。
期望(均值) — 离散:E[X]=∑kxk P(X=k)E[X]=\sum_k x_k\, P(X=k)E[X]=∑k​xk​P(X=k),连续用积分。即“按概率加权的平均”。
通俗说:期望就是“每个取值乘上其概率再全部加起来”。例如骰子:(1×1/6)+(2×1/6)+…+(6×1/6)=3.5,即按概率加权的平均。
方差 — Var(X)=E[(X−E[X])2]\mathrm{Var}(X)=E[(X-E[X])^2]Var(X)=E[(X−E[X])2]。标准差 σ=Var(X)\sigma=\sqrt{\mathrm{Var}(X)}σ=Var(X)​。Ch11 会详细讲解。
通俗说:方差描述“相对平均的离散程度”。先算(每个取值−平均)的平方,再按概率取平均得到方差;方差的平方根就是标准差。
正态分布(连续) — 密度 f(x)=1σ2π e−(x−μ)2/(2σ2)f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-(x-\mu)^2/(2\sigma^2)}f(x)=σ2π​1​e−(x−μ)2/(2σ2)。μ\muμ 为均值,σ\sigmaσ 为标准差。
通俗说:以均值 μ 为中心、左右对称的钟形曲线。σ(标准差)越大曲线越扁越宽,越小曲线越尖。身高、测量误差、噪声等很多自然现象都近似服从正态分布。
泊松分布(离散) — P(X=k)=λke−λk!P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}P(X=k)=k!λke−λ​(k=0,1,2,…k=0,1,2,\ldotsk=0,1,2,…)。λ\lambdaλ 为平均发生次数。
通俗说:用来描述“在固定时间或范围内事件发生次数”的分布。λ 是平均发生次数,公式给出恰好发生 k 次的概率。条形图通常向一侧偏。
二项分布(离散) — P(X=k)=(nk)pk(1−p)n−kP(X=k)=\binom{n}{k}p^k(1-p)^{n-k}P(X=k)=(kn​)pk(1−p)n−k。nnn 为试验次数,ppp 为每次成功概率。
通俗说:同一试验做 n 次,成功次数为 k 的概率由该公式给出。p 是单次成功的概率。例如掷 n 次硬币正面朝上的次数,常得到中间高、两边低的对称条形图。
预测时用「可能取值及其概率」表示,就是随机变量与分布。图中的三种分布在 AI 中用来表示不确定性。
AI 与图 — (正态) 用于回归、噪声、潜在空间;(泊松) 用于浏览量、点击量、事件次数;(二项) 用于二分类与成功概率。softmax、采样与交叉熵损失都与这些分布相关。
日常 — 游客数(离散)、降雨量·灯泡寿命·等车时间(连续)。区分可数与连续即与图中的条形(离散)和曲线(连续)对应。
AI 中 — 图中正态用于误差与高斯噪声,泊松用于计数与词频,二项用于类别概率与成败建模。Ch11、Ch12 会进一步讲均值、方差与正态分布。
离散随机变量时:① 确认可能取值及概率 →
② 确认概率之和为 1 →
③ 期望 = 各 (取值)×(概率) 之和。
概率之和 — P(X=1)+P(X=2)+P(X=3)=1P(X=1)+P(X=2)+P(X=3)=1P(X=1)+P(X=2)+P(X=3)=1。分母为 6 时 a/6+b/6+c/6=1a/6+b/6+c/6=1a/6+b/6+c/6=1 即 a+b+c=6a+b+c=6a+b+c=6,已知两个可求第三个。
期望 — E[X]=x1p1+x2p2+x3p3E[X]=x_1 p_1+x_2 p_2+x_3 p_3E[X]=x1​p1​+x2​p2​+x3​p3​。分母为 6 时 6⋅E[X]6\cdot E[X]6⋅E[X] 为整数,题目常求“6×期望”。
例题 — 将概率之和填为 1,或求 6×期望。
例 1. 三个概率为 a/6、b/6、c/6 且和为 1,则 a+b+c=6。a=1、b=2 时 c=3。
例 2. 取值 1、2、3 对应概率 1/6、2/6、3/6 时,6×期望 = 1×1+2×2+3×3 = 14。
按题型解题
  • 类型概率之和
  • 说明a/6、b/6、c/6 之和为 1 时填空
  • 求法a+b+c=6a+b+c=6a+b+c=6。已知两个可求第三个。
  • 类型6×期望
  • 说明6E[X]=∑(取值×分子)6 E[X] = \sum (取值\times分子)6E[X]=∑(取值×分子)
  • 求法各取值乘分子(概率×6)再相加。
  • 类型36×方差
  • 说明36×36\times36×方差
  • 求法6∑nixi2−(∑nixi)26\sum n_i x_i^2 - (\sum n_i x_i)^26∑ni​xi2​−(∑ni​xi​)2。nin_ini​=分子,xix_ixi​=取值。
  • 类型众数
  • 说明概率最大的取值
  • 求法柱最高的 XXX。
  • 类型累积概率分子
  • 说明P(X≤k)P(X\le k)P(X≤k) 写成 ?/6 时的分子
  • 求法该取值及以下概率的分子之和。
类型说明求法
概率之和a/6、b/6、c/6 之和为 1 时填空a+b+c=6a+b+c=6a+b+c=6。已知两个可求第三个。
6×期望6E[X]=∑(取值×分子)6 E[X] = \sum (取值\times分子)6E[X]=∑(取值×分子)各取值乘分子(概率×6)再相加。
36×方差36×36\times36×方差6∑nixi2−(∑nixi)26\sum n_i x_i^2 - (\sum n_i x_i)^26∑ni​xi2​−(∑ni​xi​)2。nin_ini​=分子,xix_ixi​=取值。
众数概率最大的取值柱最高的 XXX。
累积概率分子P(X≤k)P(X\le k)P(X≤k) 写成 ?/6 时的分子该取值及以下概率的分子之和。

例(概率之和)
三个概率为 1/6、2/6、c/6 且和为 1,求 c。
解
1+2+c=6 → c=3。→ 答 3

例(6×期望)
取值 1、2、3 对应概率 1/6、2/6、3/6,求 6×期望。
解
6E[X]=1×1+2×2+3×3=146E[X]=1\times 1+2\times 2+3\times 3=146E[X]=1×1+2×2+3×3=14。→ 答 14