みんなのAI
機械学習AI論文
Loading...

学ぶ

🏅マイ実績

Chapter 11

平均と分散:分布の中心と広がり

平均(期待値)は分布の中心、分散はばらつきを表します。AIでは予測・損失・正則化に使われます。

チャプター別 数学図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。基礎数学の流れを一覧で確認できます。

平均と分散
123μP(x)x

棒の高さは各値の確率を表します。赤線は分布の中心である平均(μ)、紫の帯は平均から標準偏差(σ)だけ広がった「ふつうのばらつき」です。一番高い棒が最頻値(最も出やすい値)です。

平均と分散とは

平均(期待値)は分布の重心です。分散は平均からのばらつきの大きさ。標準偏差は分散の平方根で、平均から「ふつうどれくらい離れているか」を元の単位で表します。
平均 — さいころは (1+…+6)/6=3.5、試験はクラス平均、需要予測は「見込み値」のように中心を表します。図の赤線が平均 μ\muμ です。
分散 — (値−平均)²を確率で重みづけして平均したもの。分散が大きいとばらつき大。標準偏差 σ=分散\sigma=\sqrt{\text{分散}}σ=分散​ は分散を平方根で元の単位(点、kgなど)に戻すので解釈しやすいです。例:平均70点・σ=10点なら、だいたい60~80点に多く分布。
平均だけ知っているのは危険です。平均水深が1mの川でも、深いところは3mを超えることがあるからです。こうしたリスク(変動性)を管理するには分散が必要です。AIでも予測値(平均)だけ出すのではなく、その予測がどれだけぶれるか(分散)を一緒に把握して信頼度を測ります。
AIでよく使う概念 — 下表は最頻値・平均・最小・最大・中央値の意味と、AIでの使い方をまとめたものです。
  • 概念最頻値
  • 意味確率が最大の値。何度も試行したときにもっともよく出る結果を指します。
  • AIでの利用分類で「最もありそうなクラス」を選ぶときに使います。ソフトマックス出力の argmax が最頻値に対応します。
  • 概念平均(期待値)
  • 意味分布の重心。値×確率をすべて足したもので、「期待される値」を表します。
  • AIでの利用回帰の予測値、MSE などの損失、強化学習の報酬の期待値などに使います。
  • 概念最小・最大
  • 意味変量が動く範囲 [min, max]。最小値・最大値で範囲を定めます。
  • AIでの利用損失の最小化(勾配降下)、値のクリッピング、正規化の範囲設定などに使います。
  • 概念中央値
  • 意味大きさの順に並べたときの真ん中の値。平均と違い、極端な値(外れ値)の影響を受けにくいです。
  • AIでの利用外れ値の多いデータの要約や、頑健な統計量が必要なときに使います。
概念意味AIでの利用
最頻値確率が最大の値。何度も試行したときにもっともよく出る結果を指します。分類で「最もありそうなクラス」を選ぶときに使います。ソフトマックス出力の argmax が最頻値に対応します。
平均(期待値)分布の重心。値×確率をすべて足したもので、「期待される値」を表します。回帰の予測値、MSE などの損失、強化学習の報酬の期待値などに使います。
最小・最大変量が動く範囲 [min, max]。最小値・最大値で範囲を定めます。損失の最小化(勾配降下)、値のクリッピング、正規化の範囲設定などに使います。
中央値大きさの順に並べたときの真ん中の値。平均と違い、極端な値(外れ値)の影響を受けにくいです。外れ値の多いデータの要約や、頑健な統計量が必要なときに使います。
予測の正確さを評価する尺度です。AIが出す予測結果は通常、確率分布の期待値です。予測値の分散が大きければ、AI自身も自分の予測を確信していないというシグナルと解釈できます。
不確実性(Uncertainty)を数値化します。自動運転や医療AIでは「どれだけ確かか」がとても重要です。標準偏差(σ\sigmaσ)を使って信頼区間を設定し、結果がその範囲を外れるリスクを計算して、安全な意思決定を支えます。
損失関数(Loss Function)の設計原理です。回帰で最もよく使うMSE(平均二乗誤差)は、正解と予測値の差の二乗の平均です。これは数学的には誤差の分散を最小化するということと同じです。つまり、分散を減らすことがそのままAIの実力を高めることになります。
正規化(Normalization)の基準です。重みの分散が大きくなりすぎるとモデルが過敏になり、過学習(Overfitting)が起こります。分散を一定に保つか抑える技術で、モデルをより安定させ汎用性を高めます。
日常生活でも平均と標準偏差はセットで使います。株式収益率が「平均5%、標準偏差20%」なら収益はあるが変動が大きく危険な株だとわかるように、データの性質を定義する最も基本的な言語です。
回帰 — 予測値はたいてい条件付き期待値です。「この入力のとき、出力の平均」を学習するわけです。損失はMSE(誤差二乗の平均)にして、その平均を最小化します。
分類 — 各クラスの確率を出力し、そのうち最大の値(最頻値)を予測クラスにします。ソフトマックスの argmax がその役割です。
強化学習 — 方策の良しあしを報酬の期待値で評価します。「この行動をしたとき、これから得る報酬の平均」を最大化するように学習します。
離散確率では 平均 = ∑値×確率\sum \text{値}\times\text{確率}∑値×確率、E[X]=∑ixipiE[X]=\sum_i x_i p_iE[X]=∑i​xi​pi​。
分散 = E[X2]−(E[X])2E[X^2]-(E[X])^2E[X2]−(E[X])2 — 先に「値²×確率」を足して E[X2]E[X^2]E[X2]、そこから平均の二乗を引きます。
分母が 6 なら 6×6\times6×平均 と 36×36\times36×分散 が整数になりやすいです。最頻値は確率が最大の値、累積 P(X≤k)P(X\le k)P(X≤k) は kkk 以下の値の確率の和です。
いちばん簡単: 値 1,2,3、確率 16,26,36\frac{1}{6},\frac{2}{6},\frac{3}{6}61​,62​,63​
6E[X]=1⋅1+2⋅2+3⋅3=6E[X]=1\cdot1+2\cdot2+3\cdot3=6E[X]=1⋅1+2⋅2+3⋅3= 14。
以下はタイプ別の例題です。問題 → 解答 → 答え の順で読んでください。

例(6×平均)
値 1, 2, 3 に確率 1/6, 2/6, 3/6 のとき 6E[X]6E[X]6E[X] を求めなさい。
解答
6E[X]=1×1+2×2+3×3=146E[X]=1\times 1+2\times 2+3\times 3=146E[X]=1×1+2×2+3×3=14。
→ 答 14

例(36×分散)
同じ分布で n1=1,n2=2,n3=3n_1=1,n_2=2,n_3=3n1​=1,n2​=2,n3​=3、xi=1,2,3x_i=1,2,3xi​=1,2,3 のとき 36×Var(X)36\times\mathrm{Var}(X)36×Var(X) を求めなさい。
解答
6∑nixi2−(∑nixi)2=6(1+8+27)−142=206\sum n_i x_i^2-(\sum n_i x_i)^2=6(1+8+27)-14^2=206∑ni​xi2​−(∑ni​xi​)2=6(1+8+27)−142=20。
→ 答 20

例(期待値が整数)
6E[X]=186E[X]=186E[X]=18 のとき E[X]E[X]E[X] を求めなさい。
解答
E[X]=18/6=3E[X]=18/6=3E[X]=18/6=3。
→ 答 3

例(最頻値)
値 1, 2, 3 に確率 1/6, 2/6, 3/6 のとき最頻値を求めなさい。
解答
確率が最大なのは 3。
→ 答 3

例(累積の分子)
同じ分布で P(X≤2)P(X\le 2)P(X≤2) を k/6k/6k/6 と書くときの分子 kkk を求めなさい。
解答
P(X≤2)=1/6+2/6=3/6P(X\le 2)=1/6+2/6=3/6P(X≤2)=1/6+2/6=3/6。分子 3。
→ 答 3