What is machine learning?

Machine learning learns patterns from data to make predictions. Start with https://mdooai.com/ja/learn/ml/mlSupervisedUnsupervisedSelf.

What is the difference between ML and DL?

Deep learning is a subset of machine learning focused on neural networks. Build foundations at https://mdooai.com/ja/learn/ml/mlDataFeature first.

How do I start hyperparameter tuning?

Use cross-validation while narrowing search ranges. Start at https://mdooai.com/ja/learn/ml/mlCrossValidation.

Ch.05

損失関数 (MSE・クロスエントロピー・R²): 正解と予測の誤差を測る

\hat y

チャプター別機械学習図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。

\hat y

= \frac{1}{n}\sum_i (y_i - \hat y_i)^2

損失関数 (MSE・クロスエントロピー・R²): 正解と予測の誤差を測る

y

なぜ重要か

\sqrt{\text{MSE}}

どのように使われるか

回帰の学習 — 価格・気温などで MSE を最小化。 モデル比較（回帰） — MSE が小さい方が良いフィット。 DNNの回帰出力 — 数値予測の出力層でMSEをよく使います。 分類 — ロジスティック、ソフトマックス分類、ニューラル分類では クロスエントロピー を最小化するのが一般的です。

損失関数 (MSE・クロスエントロピー・R²): 正解と予測の誤差を測る

回帰: MSE

モデルの誤りを一つの損失にまとめる必要があります。

- 残差 — 実測

y

と予測

\hat y

の差。

- SSE — 各点の

(y-\hat y)^2

をすべて足した二乗誤差の和。

- MSE — SSEをデータ数

n

で割った平均二乗誤差。

\text{MSE} = \frac{1}{n}\sum (y - \hat y)^2 = \text{SSE}/n

— 小さいほどよく当てはまります。

なぜ2乗？

- 残差

+2

と

-2

はどちらも「同じ大きさのずれ」。そのまま足すと打ち消されます。

- 2乗すれば常に正になり、大きさだけを比べられます。

- 大きな誤差ほど強く罰され、大きなミスを避けやすくなります。

線形回帰

直線

\hat y = wx + b

がデータによく合うとは、SSEを

n

で割った MSE が最小になるように

w

b

を選ぶことです。

勾配降下法は、このMSEを減らす方向に

w

b

を少しずつ更新します。

回帰: MSEは残差の二乗平均

MSEは、残差

y_i-\hat y_i

を二乗して平均を取った誤差スコアです。予測が真の値に近づくほど残差が小さくなり、MSEも小さくなります。

MSEの式を読み解く

\text{MSE} = \frac{1}{n}\sum_i (y_i - \hat y_i)^2

- $i$ — サンプル番号。

- $y_i$ — その点の実測値。

- $\hat y_i$ — 予測値。

- $y_i - \hat y_i$ — 残差。

- $(y_i - \hat y_i)^2$ — その点の二乗誤差。

- $\sum_i$ — すべての点を足すと SSE。

- $\frac{1}{n}$ — 平均してMSE。

予測が実測に近いほど残差とMSEは小さくなります。

分類: クロスエントロピー

クロスエントロピーは、分類で「正解クラスである確率」のずれに基づいて損失を決める方法です。

二値分類は、下の 二値クロスエントロピーを読み解くで

\ell

を要素ごとに解釈します。

二値クロスエントロピーを読み解く

\ell = -\big(y\log\hat p + (1-y)\log(1-\hat p)\big)

- $y \in \lbrace 0,1 \rbrace$ — ラベル。

- $\hat p$ — クラス1の確率（0～1）。

- $\log$ — 通常は自然対数。

$y=1$ のとき —

(1-y)\log(1-\hat p)=0

となり

\ell = -\log\hat p

です。

\hat p

が高いほど損失は小さくなります。

$y=0$ のとき —

y\log\hat p=0

となり

\ell = -\log(1-\hat p)

。

1-\hat p

はクラス0の確率です。

y\log\hat p

と

(1-y)\log(1-\hat p)

では どちらか一方だけが有効になり、正解側の確率を高める方向に学習が進みます。

多クラス — 正解クラス

k

については、1サンプルあたりの損失を通常

\ell = -\log \hat p_k

（ソフトマックスの確率と組で使うことが多い）とします。正解クラスの予測確率

\hat p_k

が低いほど損失が大きくなり、学習はその確率を押し上げます。

$R^2$ （決定係数）：「平均で当てる」よりどれだけ良いか

回帰では MSE/RMSEで誤差の大きさを見ますが、さらに一歩進んで「モデルが 基準線（平均予測）よりどれだけよく説明できたか」を知りたいときに $R^2$ も見ます。

R^2 = 1 - \frac{\sum_i (y_i-\hat y_i)^2}{\sum_i (y_i-\bar y)^2} = 1 - \frac{\text{SSE}}{\text{SST}}

まず記号を整理

y_i

：

i

番目のデータの実際の値。

\hat y_i

：

i

番目のデータの予測値。

\bar y

：全

y_i

の平均。

- SSE =

\sum_i (y_i-\hat y_i)^2

：モデルの二乗誤差和（小さいほど良い）

- SST =

\sum_i (y_i-\bar y)^2

：基準線（平均だけで当てる）での二乗誤差和

計算手順（超シンプル）

1. まず

\bar y

を求めます（実測値の平均）。

2. 基準線の誤差である

\text{SST} = \sum_i (y_i-\bar y)^2

を計算します。

3. モデルの誤差である

\text{SSE} = \sum_i (y_i-\hat y_i)^2

を計算します。

R^2 = 1 - \text{SSE}/\text{SST}

を使います。

解釈ガイド（最重要）

R^2 = 1

：SSE=0 → ほぼ完全な一致

R^2 = 0

：SSE=SST → 平均だけで当てるのと同程度

R^2 < 0

：SSE>SST → 平均の基準線より悪い

つまり

R^2

は「基準線に対して二乗誤差がどれだけ減ったか」を比率で示します。

短い数値例

真の値が

y=[3,5,7]

で、平均

\bar y=5

だとします。

- 基準線（平均だけ）：

\text{SST}=(3-5)^2+(5-5)^2+(7-5)^2=4+0+4=8

- モデルの予測

\hat y=[4,5,6]

のとき：

\text{SSE}=(3-4)^2+(5-5)^2+(7-6)^2=1+0+1=2

したがって

R^2 = 1 - 2/8 = 0.75

→ モデルは「平均予測」に比べて二乗誤差を約75%減らしたことになります。

注意： $R^2$ だけに頼らない

R^2

は比率なので、データセットが違うと値の比較が難しいことがあります。

- 実務では通常 RMSE + $R^2$ （誤差の大きさ + 説明力）をセットで報告します。

損失関数 (MSE・クロスエントロピー・R²): 正解と予測の誤差を測る

チャプター別 機械学習図

損失関数 (MSE・クロスエントロピー・R²): 正解と予測の誤差を測る

なぜ重要か

どのように使われるか

損失関数 (MSE・クロスエントロピー・R²): 正解と予測の誤差を測る

チャプター別 機械学習図

損失関数 (MSE・クロスエントロピー・R²): 正解と予測の誤差を測る

なぜ重要か

どのように使われるか

チャプター別機械学習図

チャプター別機械学習図