みんなのAI
機械学習AI論文
Loading...

学ぶ

🏅マイ実績

Chapter 10

確率変数と確率分布:不確実性を数に込める

確率変数は試行の結果を数で表したもので、確率分布はそれぞれの値の出やすさをまとめたものです。深層学習では予測・不確実性に使います。

チャプター別 数学図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。基礎数学の流れを一覧で確認できます。

ポアソン: 一方に偏る(イベント回数) · 二項: 中央が高い対称(成功回数)

正規分布
μf(x)x
ポアソン分布
0123456P(x)x

一方に偏る → イベントが「何回」起きたか

λ=1.5(右に裾)

二項分布
012345678910P(x)x

中央が最も高い対称 → n回中「成功した回数」

n=10, p=0.5(対称)

図2: 離散 vs 連続
離散(棒)連続(曲線)

確率変数と確率分布とは

確率変数(Random Variable)は、試行(実験)の結果を数に対応させたものです。通常 XXX と書きます。例えばコインの表を 111、裏を 000 と決めた瞬間、コイン投げという現実の出来事が数学的な変数 XXX になります。確率分布は、その数がそれぞれどの確率で現れるかを、地図のようにひと目で示す規則です。
① 離散確率変数 — 有限または可算の値だけを取ります。表・関数・棒グラフで表せ、各値 kkk の確率 P(X=k)P(X=k)P(X=k) を確率質量関数(PMF)といい、条件は ∑kP(X=k)=1\sum_k P(X=k)=1∑k​P(X=k)=1 です。
代表的な離散分布: コインを何度も投げて表が出る回数を扱う二項分布、一定時間に顧客が何人来るかといった事象発生回数を扱うポアソン分布があります。
② 連続確率変数 — 区間内で無数の値を取ります。特定の一点(例:ちょうど170.00cm)の確率は 000 です。なぜなら曲線の下の「一点」の面積は0だからです。区間の確率(例:170〜180cm)を確率密度関数(PDF)で表します。表では表せず、関数と曲線で表します。
代表的な連続分布: 自然界の多くのデータ(測定誤差、点数分布など)が従う釣り鐘型の正規分布が最も代表的です。
確率分布は「どの値がどれくらい出るか」のルールです。上の図のように正規(連続)・ポアソン(離散)・二項(離散)の三つを押さえると、AIで使う多くの場面をカバーできます。
確率質量関数(PMF)は、離散確率変数の各値 kkk に対する確率 P(X=k)P(X=k)P(X=k) です。棒グラフでは棒の高さがその確率で、すべての棒の高さの和は1です。下の図は代表的な三つの分布です。
図との対応 — 図1(上)では左の正規分布が連続(曲線)、中央のポアソンと右の二項が離散(棒)です。図2は離散(棒)と連続(曲線)を並べて比較したものです。AIでは正規でノイズ・回帰、ポアソンでイベント数、二項で成功回数・二値分類の確率をモデル化します。
確率分布の条件(離散) — PMFは各値 kkk の確率 P(X=k)P(X=k)P(X=k) です。条件:∑kP(X=k)=1\sum_k P(X=k)=1∑k​P(X=k)=1。(例:さいころは P(1)+⋯+P(6)=1P (1) +\cdots+P (6) =1P(1)+⋯+P(6)=1。)
平たく言うと:離散では「起こりうるそれぞれの確率を全部足すと1」でないといけません。さいころで1〜6の出る確率を足すと1になるのと同じです。
確率分布の条件(連続) — PDF f(x)f(x)f(x) は区間の確率:P(a≤X≤b)=∫abf(x) dxP(a\le X\le b)=\int_a^b f(x)\,dxP(a≤X≤b)=∫ab​f(x)dx、全体の面積は ∫−∞∞f(x) dx=1\int_{-\infty}^{\infty} f(x)\,dx=1∫−∞∞​f(x)dx=1。
平たく言うと:連続では曲線の下の面積が確率です。Xがa以上b以下になる確率は、aからbまでの曲線の下の面積。曲線全体の下の面積は1です。
期待値(平均) — 離散:E[X]=∑kxk P(X=k)E[X]=\sum_k x_k\, P(X=k)E[X]=∑k​xk​P(X=k)、連続は積分で求めます。「確率で重みづけた平均」です。
平たく言うと:期待値は「各値にその確率をかけて全部足したもの」です。さいころなら (1×1/6)+(2×1/6)+…+(6×1/6)=3.5 のように、確率で重みづけた平均です。
分散 — Var(X)=E[(X−E[X])2]\mathrm{Var}(X)=E[(X-E[X])^2]Var(X)=E[(X−E[X])2]。標準偏差は σ=Var(X)\sigma=\sqrt{\mathrm{Var}(X)}σ=Var(X)​。Ch11で詳しく扱います。
平たく言うと:分散は「平均からどれだけばらついているか」を数にしたものです。(各値−平均)を2乗して確率で平均を取ると分散、その平方根が標準偏差です。
正規分布(連続) — 密度 f(x)=1σ2π e−(x−μ)2/(2σ2)f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-(x-\mu)^2/(2\sigma^2)}f(x)=σ2π​1​e−(x−μ)2/(2σ2)。μ\muμ=平均、σ\sigmaσ=標準偏差で釣り鐘型が決まります。
平たく言うと:平均μを中心に左右対称な釣り鐘型の曲線です。σ(標準偏差)が大きいと横に広がり、小さいととがります。身長・測定誤差・ノイズなど、自然にばらつく量によく当てはまります。
ポアソン分布(離散) — P(X=k)=λke−λk!P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}P(X=k)=k!λke−λ​(k=0,1,2,…k=0,1,2,\ldotsk=0,1,2,…)。λ\lambdaλ は平均発生回数です。
平たく言うと:「一定時間や範囲で事象が何回起きたか」を数えるときの分布です。λは平均の発生回数で、k=0,1,2,… それぞれの確率を上の式で求めます。棒グラフは片方に偏ることが多いです。
二項分布(離散) — P(X=k)=(nk)pk(1−p)n−kP(X=k)=\binom{n}{k}p^k(1-p)^{n-k}P(X=k)=(kn​)pk(1−p)n−k。nnn=試行回数、ppp=1回の成功確率です。
平たく言うと:同じ試行をn回繰り返したとき「成功」がk回起きる確率を与える分布です。pは1回の試行で成功する確率。コインをn回投げて表がk回出るような場合で、中央が高くなる対称に近い棒グラフになることが多いです。
予測を「取りうる値とその確率」で表すと確率変数・分布になります。上の図の三つの分布は、AIで不確実性を表すのに使われます。
AIと図 — (正規) 回帰・ノイズ・潜在空間、(ポアソン) 閲覧数・クリック数・イベント数、(二項) 二値分類・成功確率に使います。ソフトマックス・サンプリング・交差エントロピー損失もこれらの分布と結びついています。
日常 — 入場者数(離散)、降水量・電球寿命・バス待ち時間(連続)のように数えられる値と連続的な値を区別すると、上の図の棒(離散)と曲線(連続)と自然に対応します。
AIでの利用 — 上の図の正規分布は誤差・ガウスノイズに、ポアソンはカウントデータ・語の頻度に、二項はクラス確率・成功/失敗のモデルに使われます。Ch11・Ch12で平均・分散・正規分布をさらに学びます。
離散確率変数では ① 取りうる値と各確率を確認 →
② 確率の和が1か確認 →
③ 期待値は (値)×(確率) をすべて足したもの と押さえましょう。
確率の和 — P(X=1)+P(X=2)+P(X=3)=1P(X=1)+P(X=2)+P(X=3)=1P(X=1)+P(X=2)+P(X=3)=1。分母を6にすると a/6+b/6+c/6=1a/6+b/6+c/6=1a/6+b/6+c/6=1 のとき a+b+c=6a+b+c=6a+b+c=6。2つ分かれば残り1つが求められます。
期待値 — E[X]=x1p1+x2p2+x3p3E[X]=x_1 p_1+x_2 p_2+x_3 p_3E[X]=x1​p1​+x2​p2​+x3​p3​。分母が6なら 6⋅E[X]6\cdot E[X]6⋅E[X] は整数なので、「6×期待値」を求める問題が出ることがあります。
例 — 確率の和が1になるように空欄を埋める、または 6×期待値を求める問題です。
例 1. 3つの確率が a/6, b/6, c/6 で和が1なら a+b+c=6。a=1, b=2 のとき c=3 です。
例 2. 値 1, 2, 3 に確率 1/6, 2/6, 3/6 なら、期待値の6倍は 1×1+2×2+3×3=14 です。
問題タイプ別の解法
  • タイプ確率の和
  • 説明a/6, b/6, c/6 の和が 1 になるように空欄
  • 答えの求め方a+b+c=6a+b+c=6a+b+c=6。二つ分かれば残り。
  • タイプ6×期待値
  • 説明6E[X]=∑(値×分子)6 E[X] = \sum (\text{値}\times\text{分子})6E[X]=∑(値×分子)
  • 答えの求め方各値に分子(確率×6)を掛けて足す。
  • タイプ36×分散
  • 説明36×分散36\times\text{分散}36×分散
  • 答えの求め方6∑nixi2−(∑nixi)26\sum n_i x_i^2 - (\sum n_i x_i)^26∑ni​xi2​−(∑ni​xi​)2。nin_ini​=分子、xix_ixi​=値。
  • タイプ最頻値
  • 説明確率が最大の値
  • 答えの求め方棒が最も高い XXX の値。
  • タイプ累積確率の分子
  • 説明P(X≤k)P(X\le k)P(X≤k) を ?/6 の形のとき分子
  • 答えの求め方その値以下の確率の分子を足す。
タイプ説明答えの求め方
確率の和a/6, b/6, c/6 の和が 1 になるように空欄a+b+c=6a+b+c=6a+b+c=6。二つ分かれば残り。
6×期待値6E[X]=∑(値×分子)6 E[X] = \sum (\text{値}\times\text{分子})6E[X]=∑(値×分子)各値に分子(確率×6)を掛けて足す。
36×分散36×分散36\times\text{分散}36×分散6∑nixi2−(∑nixi)26\sum n_i x_i^2 - (\sum n_i x_i)^26∑ni​xi2​−(∑ni​xi​)2。nin_ini​=分子、xix_ixi​=値。
最頻値確率が最大の値棒が最も高い XXX の値。
累積確率の分子P(X≤k)P(X\le k)P(X≤k) を ?/6 の形のとき分子その値以下の確率の分子を足す。

例(確率の和)
三つの確率 1/6, 2/6, c/6 の和が 1 のとき c を求めなさい。
解答
1+2+c=6 → c=3。→ 答 3

例(6×期待値)
値 1, 2, 3 に確率 1/6, 2/6, 3/6 のとき 6×期待値を求めなさい。
解答
6E[X]=1×1+2×2+3×3=146E[X]=1\times 1+2\times 2+3\times 3=146E[X]=1×1+2×2+3×3=14。→ 答 14