Chapter 10

確率変数と確率分布

確率変数は試行の結果を数で表したもので、確率分布はそれぞれの値の出やすさをまとめたものです。深層学習では予測・不確実性に使います。

home.mathDiagramTitle

home.mathDiagramDescription

ポアソン: 一方に偏る(イベント回数) · 二項: 中央が高い対称(成功回数)

正規分布

ポアソン分布

二項分布

図2: 離散 vs 連続

確率変数と確率分布とは

確率変数は試行の結果を数に対応させたもの、確率分布はその数がどれくらいの確率で出るかをまとめたものです。上の図はAIでよく使う三つの分布—正規・ポアソン・二項—を示しています。

① 離散確率変数 — 有限または可算の値だけを取ります。表・関数・棒グラフで表せ、各値

k

の確率

P(X=k)

を確率質量関数(PMF)といい、条件は

\sum_k P(X=k)=1

です。

離散の例 — ある日の動物園の入場者数、コイン2枚で表の出る数、ストライクが出るまでのボウリングの回数など数えられる結果です。上の図のポアソン・二項が離散の棒グラフです。

② 連続確率変数 — 区間内で無数の値を取ります。一点の確率は0とし、区間の確率を確率密度関数(PDF)で表します。表では表せず、関数と曲線で表します。

連続の例 — 年間降水量、電球の寿命、バスが来るまでの待ち時間など連続的な量です。上の図の正規分布(釣り鐘型)が連続の代表例です。

確率分布は「どの値がどれくらい出るか」のルールです。上の図のように正規(連続)・ポアソン(離散)・二項(離散)の三つを押さえると、AIで使う多くの場面をカバーできます。

確率質量関数(PMF)は、離散確率変数の各値

k

に対する確率

P(X=k)

です。棒グラフでは棒の高さがその確率で、すべての棒の高さの和は1です。下の図は代表的な三つの分布です。

図との対応 — 図1(上)では左の正規分布が連続(曲線)、中央のポアソンと右の二項が離散(棒)です。図2は離散(棒)と連続(曲線)を並べて比較したものです。AIでは正規でノイズ・回帰、ポアソンでイベント数、二項で成功回数・二値分類の確率をモデル化します。

確率分布の条件（離散） — PMFは各値

k

の確率

P(X=k)

です。条件：

\sum_k P(X=k)=1

。（例：さいころは

P(1)+\cdots+P(6)=1

。）

平たく言うと：離散では「起こりうるそれぞれの確率を全部足すと1」でないといけません。さいころで1〜6の出る確率を足すと1になるのと同じです。

確率分布の条件（連続） — PDF

f(x)

は区間の確率：

P(a\le X\le b)=\int_a^b f(x)\,dx

、全体の面積は

\int_{-\infty}^{\infty} f(x)\,dx=1

。

平たく言うと：連続では曲線の下の面積が確率です。Xがa以上b以下になる確率は、aからbまでの曲線の下の面積。曲線全体の下の面積は1です。

期待値（平均） — 離散：

E[X]=\sum_k x_k\, P(X=k)

、連続は積分で求めます。「確率で重みづけた平均」です。

平たく言うと：期待値は「各値にその確率をかけて全部足したもの」です。さいころなら (1×1/6)+(2×1/6)+…+(6×1/6)=3.5 のように、確率で重みづけた平均です。

分散 —

\mathrm{Var}(X)=E[(X-E[X])^2]

。標準偏差は

\sigma=\sqrt{\mathrm{Var}(X)}

。Ch11で詳しく扱います。

平たく言うと：分散は「平均からどれだけばらついているか」を数にしたものです。(各値−平均)を2乗して確率で平均を取ると分散、その平方根が標準偏差です。

正規分布（連続） — 密度

f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-(x-\mu)^2/(2\sigma^2)}

。

\mu

=平均、

\sigma

=標準偏差で釣り鐘型が決まります。

平たく言うと：平均μを中心に左右対称な釣り鐘型の曲線です。σ（標準偏差）が大きいと横に広がり、小さいととがります。身長・測定誤差・ノイズなど、自然にばらつく量によく当てはまります。

ポアソン分布（離散） —

P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}

（

k=0,1,2,\ldots

）。

\lambda

は平均発生回数です。

平たく言うと：「一定時間や範囲で事象が何回起きたか」を数えるときの分布です。λは平均の発生回数で、k=0,1,2,… それぞれの確率を上の式で求めます。棒グラフは片方に偏ることが多いです。

二項分布（離散） —

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

。

n

=試行回数、

p

=1回の成功確率です。

平たく言うと：同じ試行をn回繰り返したとき「成功」がk回起きる確率を与える分布です。pは1回の試行で成功する確率。コインをn回投げて表がk回出るような場合で、中央が高くなる対称に近い棒グラフになることが多いです。

予測を「取りうる値とその確率」で表すと確率変数・分布になります。上の図の三つの分布は、AIで不確実性を表すのに使われます。

AIと図 — (正規) 回帰・ノイズ・潜在空間、(ポアソン) 閲覧数・クリック数・イベント数、(二項) 二値分類・成功確率に使います。ソフトマックス・サンプリング・交差エントロピー損失もこれらの分布と結びついています。

日常 — 入場者数(離散)、降水量・電球寿命・バス待ち時間(連続)のように数えられる値と連続的な値を区別すると、上の図の棒(離散)と曲線(連続)と自然に対応します。

AIでの利用 — 上の図の正規分布は誤差・ガウスノイズに、ポアソンはカウントデータ・語の頻度に、二項はクラス確率・成功/失敗のモデルに使われます。Ch11・Ch12で平均・分散・正規分布をさらに学びます。

離散確率変数では ① 取りうる値と各確率を確認 → ② 確率の和が1か確認 → ③ 期待値は (値)×(確率) をすべて足したもの と押さえましょう。

確率の和 —

P(X=1)+P(X=2)+P(X=3)=1

。分母を6にすると

a/6+b/6+c/6=1

のとき

a+b+c=6

。2つ分かれば残り1つが求められます。

期待値 —

E[X]=x_1 p_1+x_2 p_2+x_3 p_3

。分母が6なら

6\cdot E[X]

は整数なので、「6×期待値」を求める問題が出ることがあります。

例 — 確率の和が1になるように空欄を埋める、または 6×期待値を求める問題です。

例 1. 3つの確率が a/6, b/6, c/6 で和が1なら a+b+c=6。a=1, b=2 のとき c=3 です。

例 2. 値 1, 2, 3 に確率 1/6, 2/6, 3/6 なら、期待値の6倍は 1×1+2×2+3×3=14 です。