Chapter 11

平均と分散

平均(期待値)は分布の中心、分散はばらつきを表します。AIでは予測・損失・正則化に使われます。

home.mathDiagramTitle

home.mathDiagramDescription

平均と分散

平均と分散とは

平均(期待値)は分布の重心です。分散は平均からのばらつきの大きさ。標準偏差は分散の平方根で、平均から「ふつうどれくらい離れているか」を元の単位で表します。
平均 — さいころは (1+…+6)/6=3.5、試験はクラス平均、需要予測は「見込み値」のように中心を表します。図の赤線が平均 μ\mu です。
分散 — (値−平均)²を確率で重みづけして平均したもの。分散が大きいとばらつき大。標準偏差 σ=分散\sigma=\sqrt{\text{分散}} は分散を平方根で元の単位(点、kgなど)に戻すので解釈しやすいです。例:平均70点・σ=10点なら、だいたい60~80点に多く分布。
平均だけでは「どこか」しか分かりません。分散・標準偏差不確実性・ばらつきが分かります。AIでは信頼区間・損失・正則化に使います。
AIでよく使う概念 — 下表は最頻値・平均・最小・最大・中央値の意味と、AIでの使い方をまとめたものです。
概念意味AIでの利用
最頻値確率が最大の値。何度も試行したときにもっともよく出る結果を指します。分類で「最もありそうなクラス」を選ぶときに使います。ソフトマックス出力の argmax が最頻値に対応します。
平均(期待値)分布の重心。値×確率をすべて足したもので、「期待される値」を表します。回帰の予測値、MSE などの損失、強化学習の報酬の期待値などに使います。
最小・最大変量が動く範囲 [min, max]。最小値・最大値で範囲を定めます。損失の最小化(勾配降下)、値のクリッピング、正規化の範囲設定などに使います。
中央値大きさの順に並べたときの真ん中の値。平均と違い、極端な値(外れ値)の影響を受けにくいです。外れ値の多いデータの要約や、頑健な統計量が必要なときに使います。
予測でモデルが一つの数を出すとき、それはたいてい平均(期待値)です。例えば「明日の売上は約1000万円」なら、1000万円が期待値。標準偏差が大きいと「予測がぶれやすい」と解釈できます。
不確実性 — 分散・標準偏差が大きいと、値が平均のまわりに広くばらつき、「どれだけ信頼できるか」が分かります。医療・金融・自動運転など信頼区間(例:平均±2σ)が重要な分野でよく使います。
損失関数 — 回帰でよく使うMSE(平均二乗誤差)は「誤差の二乗」の平均です。つまり分散と同じ式の形なので、学習の目的は「誤差の分散を減らすこと」と解釈できます。
正則化・ドロップアウト — 重みの分散を減らしたりノイズで分散を調整します。分散が大きすぎると予測が不安定になるので、正則化で過学習を防ぎ汎化を助けます。
AI全般 — ベイズニューラルネットや不確実性推定モデルは平均と分散(またはσ)を一緒に予測します。生成モデル(VAE、拡散)でも潜在空間の平均・分散が中心になります。
日常 — 試験の成績は「平均70点、標準偏差10点」のように中心ばらつきを一緒に見ます。身長・体重の分布、需要予測(見込み値と誤差範囲)、品質管理(規格±σ)も同じ考え方です。
回帰 — 予測値はたいてい条件付き期待値です。「この入力のとき、出力の平均」を学習するわけです。損失はMSE(誤差二乗の平均)にして、その平均を最小化します。
分類 — 各クラスの確率を出力し、そのうち最大の値(最頻値)を予測クラスにします。ソフトマックスの argmax がその役割です。
強化学習 — 方策の良しあしを報酬の期待値で評価します。「この行動をしたとき、これから得る報酬の平均」を最大化するように学習します。
不確実性推定 — ベイズニューラルネット、アンサンブル、ドロップアウト推論などは、予測分散も一緒に求めます。「この予測がどれだけ確かか」を分散・標準偏差で表します。
数学の流れ — Ch10で期待値・分散を定義し、Ch11で計算練習します。Ch12の正規分布は平均 μ\mu と標準偏差 σ\sigma の二つで形が決まります。
離散確率:平均=×確率の和\text{値}\times\text{確率の和}分散=E[X2](E[X])2E[X^2]-(E[X])^2。分母6なら 6×平均6\times\text{平均}36×分散36\times\text{分散} が整数。
平均×確率\text{値}\times\text{確率}を足す。分母6なら 6×平均6\times\text{平均} が整数。
分散E[X2]E[X^2]から(平均)2(\text{平均})^2を引く。36×分散36\times\text{分散}が整数になるようにすると計算しやすい。
以下では 6×平均6\times\text{平均}36×分散36\times\text{分散}、平均(整数)、最頻値、累積確率の分子などを求めます。
例. 値 1,2,3、確率 16\frac{1}{6}, 26\frac{2}{6}, 36\frac{3}{6}6×平均=1×1+2×2+3×3=146\times\text{平均} = 1\times1+2\times2+3\times3 = 14
例. 同じ分布で 36×分散=6i(nixi2)(inixi)236\times\text{分散} = 6\sum_i (n_i x_i^2) - (\sum_i n_i x_i)^2