Chapter 10

確率変数と確率分布：不確実性を数に込める

確率変数は試行の結果を数で表したもので、確率分布はそれぞれの値の出やすさをまとめたものです。深層学習では予測・不確実性に使います。

チャプター別数学図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。基礎数学の流れを一覧で確認できます。

ポアソン: 一方に偏る(イベント回数) · 二項: 中央が高い対称(成功回数)

正規分布

ポアソン分布

二項分布

図2: 離散 vs 連続

確率変数と確率分布とは

確率変数(Random Variable)は、試行（実験）の結果を数に対応させたものです。通常

X

と書きます。例えばコインの表を

1

、裏を

0

と決めた瞬間、コイン投げという現実の出来事が数学的な変数

X

になります。確率分布は、その数がそれぞれどの確率で現れるかを、地図のようにひと目で示す規則です。

① 離散確率変数 — 有限または可算の値だけを取ります。表・関数・棒グラフで表せ、各値

k

の確率

P(X=k)

を確率質量関数(PMF)といい、条件は

\sum_k P(X=k)=1

です。

代表的な離散分布: コインを何度も投げて表が出る回数を扱う二項分布、一定時間に顧客が何人来るかといった事象発生回数を扱うポアソン分布があります。

② 連続確率変数 — 区間内で無数の値を取ります。特定の一点（例：ちょうど170.00cm）の確率は

0

です。なぜなら曲線の下の「一点」の面積は0だからです。区間の確率（例：170〜180cm）を確率密度関数(PDF)で表します。表では表せず、関数と曲線で表します。

代表的な連続分布: 自然界の多くのデータ（測定誤差、点数分布など）が従う釣り鐘型の正規分布が最も代表的です。

確率分布は「どの値がどれくらい出るか」のルールです。上の図のように正規(連続)・ポアソン(離散)・二項(離散)の三つを押さえると、AIで使う多くの場面をカバーできます。

確率質量関数(PMF)は、離散確率変数の各値

k

に対する確率

P(X=k)

です。棒グラフでは棒の高さがその確率で、すべての棒の高さの和は1です。下の図は代表的な三つの分布です。

図との対応 — 図1(上)では左の正規分布が連続(曲線)、中央のポアソンと右の二項が離散(棒)です。図2は離散(棒)と連続(曲線)を並べて比較したものです。AIでは正規でノイズ・回帰、ポアソンでイベント数、二項で成功回数・二値分類の確率をモデル化します。

確率分布の条件（離散） — PMFは各値

k

の確率

P(X=k)

です。条件：

\sum_k P(X=k)=1

。（例：さいころは

P(1)+\cdots+P(6)=1

。）

平たく言うと：離散では「起こりうるそれぞれの確率を全部足すと1」でないといけません。さいころで1〜6の出る確率を足すと1になるのと同じです。

確率分布の条件（連続） — PDF

f(x)

は区間の確率：

P(a\le X\le b)=\int_a^b f(x)\,dx

、全体の面積は

\int_{-\infty}^{\infty} f(x)\,dx=1

。

平たく言うと：連続では曲線の下の面積が確率です。Xがa以上b以下になる確率は、aからbまでの曲線の下の面積。曲線全体の下の面積は1です。

期待値（平均） — 離散：

E[X]=\sum_k x_k\, P(X=k)

、連続は積分で求めます。「確率で重みづけた平均」です。

平たく言うと：期待値は「各値にその確率をかけて全部足したもの」です。さいころなら (1×1/6)+(2×1/6)+…+(6×1/6)=3.5 のように、確率で重みづけた平均です。

分散 —

\mathrm{Var}(X)=E[(X-E[X])^2]

。標準偏差は

\sigma=\sqrt{\mathrm{Var}(X)}

。Ch11で詳しく扱います。

平たく言うと：分散は「平均からどれだけばらついているか」を数にしたものです。(各値−平均)を2乗して確率で平均を取ると分散、その平方根が標準偏差です。

正規分布（連続） — 密度

f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-(x-\mu)^2/(2\sigma^2)}

。

\mu

=平均、

\sigma

=標準偏差で釣り鐘型が決まります。

平たく言うと：平均μを中心に左右対称な釣り鐘型の曲線です。σ（標準偏差）が大きいと横に広がり、小さいととがります。身長・測定誤差・ノイズなど、自然にばらつく量によく当てはまります。

ポアソン分布（離散） —

P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}

（

k=0,1,2,\ldots

）。

\lambda

は平均発生回数です。

平たく言うと：「一定時間や範囲で事象が何回起きたか」を数えるときの分布です。λは平均の発生回数で、k=0,1,2,… それぞれの確率を上の式で求めます。棒グラフは片方に偏ることが多いです。

二項分布（離散） —

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

。

n

=試行回数、

p

=1回の成功確率です。

平たく言うと：同じ試行をn回繰り返したとき「成功」がk回起きる確率を与える分布です。pは1回の試行で成功する確率。コインをn回投げて表がk回出るような場合で、中央が高くなる対称に近い棒グラフになることが多いです。

予測を「取りうる値とその確率」で表すと確率変数・分布になります。上の図の三つの分布は、AIで不確実性を表すのに使われます。

AIと図 — (正規) 回帰・ノイズ・潜在空間、(ポアソン) 閲覧数・クリック数・イベント数、(二項) 二値分類・成功確率に使います。ソフトマックス・サンプリング・交差エントロピー損失もこれらの分布と結びついています。

日常 — 入場者数(離散)、降水量・電球寿命・バス待ち時間(連続)のように数えられる値と連続的な値を区別すると、上の図の棒(離散)と曲線(連続)と自然に対応します。

AIでの利用 — 上の図の正規分布は誤差・ガウスノイズに、ポアソンはカウントデータ・語の頻度に、二項はクラス確率・成功/失敗のモデルに使われます。Ch11・Ch12で平均・分散・正規分布をさらに学びます。

離散確率変数では ① 値と確率 →

② 確率の和が 1 →

③ 期待値 = (値)×(確率) の和 と押さえましょう。

確率の和 — 例:

P(X=1)+P(X=2)+P(X=3)=1

。分母 6 なら

a/6+b/6+c/6=1

は

a+b+c=6

。2つ分かれば残りが求められます。

期待値 —

E[X]=x_1 p_1+x_2 p_2+x_3 p_3

。分母が 6 なら

6E[X]

は整数で、6×期待値を聞かれることがあります。

分散 —

\mathrm{Var}(X)=E[X^2]-(E[X])^2

。分母 6 のとき $36\times$ 分散 は

6\sum n_i x_i^2-(\sum n_i x_i)^2

（

n_i

=分子、

x_i

=値）で整数計算できます。

いちばん簡単: 確率

1/6,\,2/6,\,c/6

の和が 1 のとき

1+2+c=6

→ $c=3$ 。

以下はタイプ別の例題です。問題 → 解答 → 答え の順で読んでください。

例（確率の和）

三つの確率 1/6, 2/6, c/6 の和が 1 のとき c を求めなさい。

解答

分母が 6 なら分子の和は 6 なので

1+2+c=6

→

c=3

。

→ 答 3

例（6×期待値）

値 1, 2, 3 に確率 1/6, 2/6, 3/6 のとき

6E[X]

を求めなさい。

解答

6E[X]=1\times 1+2\times 2+3\times 3=14

。

→ 答 14

例（36×分散）

同じ分布で分子

n_1=1,n_2=2,n_3=3

、値

x_i=1,2,3

のとき

36\times\mathrm{Var}(X)

を求めなさい。

解答

\sum n_i x_i=14

、

\sum n_i x_i^2=36

より

36\times\mathrm{Var}(X)=6\cdot36-14^2=20

。

→ 答 20

例（最頻値）

値 1, 2, 3 に確率 1/6, 2/6, 3/6 のとき最頻値を求めなさい。

解答

確率が最大なのは

X=3

（

3/6

）。

→ 答 3

例（累積確率の分子）

同じ分布で

P(X\le 2)

を

k/6

と書くときの分子

k

を求めなさい。

解答

P(X\le 2)=1/6+2/6=3/6

。分子は 3。

→ 答 3

確率変数と確率分布とは

確率変数(Random Variable)は、試行（実験）の結果を数に対応させたものです。通常

X

と書きます。例えばコインの表を

1

、裏を

0

と決めた瞬間、コイン投げという現実の出来事が数学的な変数

X

になります。確率分布は、その数がそれぞれどの確率で現れるかを、地図のようにひと目で示す規則です。

① 離散確率変数 — 有限または可算の値だけを取ります。表・関数・棒グラフで表せ、各値

k

の確率

P(X=k)

を確率質量関数(PMF)といい、条件は

\sum_k P(X=k)=1

です。

② 連続確率変数 — 区間内で無数の値を取ります。特定の一点（例：ちょうど170.00cm）の確率は

0

代表的な連続分布: 自然界の多くのデータ（測定誤差、点数分布など）が従う釣り鐘型の正規分布が最も代表的です。

確率質量関数(PMF)は、離散確率変数の各値

k

に対する確率

P(X=k)

です。棒グラフでは棒の高さがその確率で、すべての棒の高さの和は1です。下の図は代表的な三つの分布です。

確率分布の条件（離散） — PMFは各値

k

の確率

P(X=k)

です。条件：

\sum_k P(X=k)=1

。（例：さいころは

P(1)+\cdots+P(6)=1

。）

確率分布の条件（連続） — PDF

f(x)

は区間の確率：

P(a\le X\le b)=\int_a^b f(x)\,dx

、全体の面積は

\int_{-\infty}^{\infty} f(x)\,dx=1

。

平たく言うと：連続では曲線の下の面積が確率です。Xがa以上b以下になる確率は、aからbまでの曲線の下の面積。曲線全体の下の面積は1です。

期待値（平均） — 離散：

E[X]=\sum_k x_k\, P(X=k)

、連続は積分で求めます。「確率で重みづけた平均」です。

分散 —

\mathrm{Var}(X)=E[(X-E[X])^2]

。標準偏差は

\sigma=\sqrt{\mathrm{Var}(X)}

。Ch11で詳しく扱います。

正規分布（連続） — 密度

f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-(x-\mu)^2/(2\sigma^2)}

。

\mu

=平均、

\sigma

=標準偏差で釣り鐘型が決まります。

ポアソン分布（離散） —

P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}

（

k=0,1,2,\ldots

）。

\lambda

は平均発生回数です。

二項分布（離散） —

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

。

n

=試行回数、

p

=1回の成功確率です。

予測を「取りうる値とその確率」で表すと確率変数・分布になります。上の図の三つの分布は、AIで不確実性を表すのに使われます。

離散確率変数では ① 値と確率 →

② 確率の和が 1 →

③ 期待値 = (値)×(確率) の和 と押さえましょう。

確率の和 — 例:

P(X=1)+P(X=2)+P(X=3)=1

。分母 6 なら

a/6+b/6+c/6=1

は

a+b+c=6

。2つ分かれば残りが求められます。

期待値 —

E[X]=x_1 p_1+x_2 p_2+x_3 p_3

。分母が 6 なら

6E[X]

は整数で、6×期待値を聞かれることがあります。

分散 —

\mathrm{Var}(X)=E[X^2]-(E[X])^2

。分母 6 のとき $36\times$ 分散 は

6\sum n_i x_i^2-(\sum n_i x_i)^2

（

n_i

=分子、

x_i

=値）で整数計算できます。

いちばん簡単: 確率

1/6,\,2/6,\,c/6

の和が 1 のとき

1+2+c=6

→ $c=3$ 。

以下はタイプ別の例題です。問題 → 解答 → 答え の順で読んでください。

例（確率の和）

三つの確率 1/6, 2/6, c/6 の和が 1 のとき c を求めなさい。

解答

分母が 6 なら分子の和は 6 なので

1+2+c=6

→

c=3

。

→ 答 3

例（6×期待値）

値 1, 2, 3 に確率 1/6, 2/6, 3/6 のとき

6E[X]

を求めなさい。

解答

6E[X]=1\times 1+2\times 2+3\times 3=14

。

→ 答 14

例（36×分散）

同じ分布で分子

n_1=1,n_2=2,n_3=3

、値

x_i=1,2,3

のとき

36\times\mathrm{Var}(X)

を求めなさい。

解答

\sum n_i x_i=14

、

\sum n_i x_i^2=36

より

36\times\mathrm{Var}(X)=6\cdot36-14^2=20

。

→ 答 20

例（最頻値）

値 1, 2, 3 に確率 1/6, 2/6, 3/6 のとき最頻値を求めなさい。

解答

確率が最大なのは

X=3

（

3/6

）。

→ 答 3

例（累積確率の分子）

同じ分布で

P(X\le 2)

を

k/6

と書くときの分子

k

を求めなさい。

解答

P(X\le 2)=1/6+2/6=3/6

。分子は 3。

→ 答 3

確率変数と確率分布：不確実性を数に込める

チャプター別 数学図

確率変数と確率分布とは

確率変数と確率分布：不確実性を数に込める

チャプター別 数学図

確率変数と確率分布とは

チャプター別数学図

チャプター別数学図