Chapter 10
随机变量与概率分布
随机变量将试验结果用数字表示,概率分布则概括各取值出现的可能性。深度学习中用於预测与不确定性。
home.mathDiagramTitle
home.mathDiagramDescription
泊松:一侧偏(事件次数)· 二项:中间高、对称(成功次数)
正态分布
泊松分布
二项分布
图2:离散 vs 连续
什么是随机变量与概率分布
随机变量将试验结果对应成数字,概率分布则概括各取值出现的概率。上图是 AI 中常用的三种分布:正态、泊松、二项。
① 离散随机变量 — 只取有限或可数个值。可用表格、函数、条形图表示;各取值 的概率 称为概率质量函数(PMF),满足 。
离散例子 — 某日动物园游客数、抛两枚硬币正面个数、直到打出保龄球全中为止的投掷次数等可数结果。上图的泊松、二项条形图即离散随机变量。
② 连续随机变量 — 在区间内取无穷多个值。不对单点定义概率,而用概率密度函数(PDF)表示区间上的概率。不用表格,用函数与曲线表示。
连续例子 — 年降雨量、灯泡寿命、公交车到来前的等待时间等连续量。上图的正态分布(钟形曲线)是连续型的代表。
概率分布是「取哪些值、各有多少概率」的规则。上图所示的正态(连续)、泊松(离散)、二项(离散)三种掌握后,即可覆盖 AI 中的多数情形。
概率质量函数(PMF)是离散随机变量各取值 的概率 。在条形图中,条的高度即为该概率,所有条的高度之和为 1。下图是三种常见分布。
与图的对应 — 图1(上):左侧正态为连续(曲线),中间泊松与右侧二项为离散(条形)。图2将离散(条形)与连续(曲线)并排比较。AI 中:正态用于噪声与回归,泊松用于事件次数,二项用于成功次数与二分类概率。
概率分布的条件(离散) — PMF 是各取值 的概率 。满足 。(例:骰子 。)
通俗说:离散情形下,所有可能取值的概率加起来必须等于 1。就像骰子,1 到 6 每个面出现的概率加起来是 1。
概率分布的条件(连续) — PDF 给出区间概率:,总面积为 。
通俗说:连续情形下,曲线下的面积表示概率。X 落在 [a,b] 的概率就是从 a 到 b 的曲线下面积;整条曲线下的总面积等于 1。
期望(均值) — 离散:,连续用积分。即“按概率加权的平均”。
通俗说:期望就是“每个取值乘上其概率再全部加起来”。例如骰子:(1×1/6)+(2×1/6)+…+(6×1/6)=3.5,即按概率加权的平均。
方差 — 。标准差 。Ch11 会详细讲解。
通俗说:方差描述“相对平均的离散程度”。先算(每个取值−平均)的平方,再按概率取平均得到方差;方差的平方根就是标准差。
正态分布(连续) — 密度 。 为均值, 为标准差。
通俗说:以均值 μ 为中心、左右对称的钟形曲线。σ(标准差)越大曲线越扁越宽,越小曲线越尖。身高、测量误差、噪声等很多自然现象都近似服从正态分布。
泊松分布(离散) — ()。 为平均发生次数。
通俗说:用来描述“在固定时间或范围内事件发生次数”的分布。λ 是平均发生次数,公式给出恰好发生 k 次的概率。条形图通常向一侧偏。
二项分布(离散) — 。 为试验次数, 为每次成功概率。
通俗说:同一试验做 n 次,成功次数为 k 的概率由该公式给出。p 是单次成功的概率。例如掷 n 次硬币正面朝上的次数,常得到中间高、两边低的对称条形图。
预测时用「可能取值及其概率」表示,就是随机变量与分布。图中的三种分布在 AI 中用来表示不确定性。
AI 与图 — (正态) 用于回归、噪声、潜在空间;(泊松) 用于浏览量、点击量、事件次数;(二项) 用于二分类与成功概率。softmax、采样与交叉熵损失都与这些分布相关。
日常 — 游客数(离散)、降雨量·灯泡寿命·等车时间(连续)。区分可数与连续即与图中的条形(离散)和曲线(连续)对应。
AI 中 — 图中正态用于误差与高斯噪声,泊松用于计数与词频,二项用于类别概率与成败建模。Ch11、Ch12 会进一步讲均值、方差与正态分布。
离散随机变量时:① 确认可能取值及概率 → ② 确认概率之和为 1 → ③ 期望 = 各 (取值)×(概率) 之和。
概率之和 — 。分母为 6 时 即 ,已知两个可求第三个。
期望 — 。分母为 6 时 为整数,题目常求“6×期望”。
例题 — 将概率之和填为 1,或求 6×期望。
例 1. 三个概率为 a/6、b/6、c/6 且和为 1,则 a+b+c=6。a=1、b=2 时 c=3。
例 2. 取值 1、2、3 对应概率 1/6、2/6、3/6 时,6×期望 = 1×1+2×2+3×3 = 14。