Ch.05
損失関数 (MSE・クロスエントロピー・R²): 正解と予測の誤差を測る
損失関数は、モデルの誤りを一つの数にまとめます。回帰(連続値の予測)では予測 と実測 の差から 平均二乗誤差(MSE) を使うのが代表的で、さらに (決定係数)で「モデルがどれだけ変動を説明できたか」を見ます。分類では、正解クラスに対する予測確率のずれを クロスエントロピー で測ります。下の図は損失のうち回帰の例としてMSEがどう小さくなるかを示します。
チャプター別 機械学習図
チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。
回帰損失の例: 予測 と実測 の差を2乗して平均したものがMSEです。(分類ではクロスエントロピーを使います。)
MSE — 損失が小さいほど直線がデータに良くフィット。
損失関数 (MSE・クロスエントロピー・R²): 正解と予測の誤差を測る
回帰: MSE
モデルの誤りを一つの損失にまとめる必要があります。
- 残差 — 実測 と予測 の差。
- SSE — 各点の をすべて足した二乗誤差の和。
- MSE — SSEをデータ数 で割った平均二乗誤差。
— 小さいほどよく当てはまります。
なぜ2乗?
- 残差 と はどちらも「同じ大きさのずれ」。そのまま足すと打ち消されます。
- 2乗すれば常に正になり、大きさだけを比べられます。
- 大きな誤差ほど強く罰され、大きなミスを避けやすくなります。
線形回帰
直線 がデータによく合うとは、SSEを で割った MSE が最小になるように , を選ぶことです。
勾配降下法は、このMSEを減らす方向に , を少しずつ更新します。
回帰: MSEは残差の二乗平均
MSEは、残差 を二乗して平均を取った誤差スコアです。予測が真の値に近づくほど残差が小さくなり、MSEも小さくなります。
MSEの式を読み解く
- — サンプル番号。
- — その点の実測値。
- — 予測値。
- — 残差。
- — その点の二乗誤差。
- — すべての点を足すと SSE。
- — 平均してMSE。
予測が実測に近いほど残差とMSEは小さくなります。
分類: クロスエントロピー
クロスエントロピーは、分類で「正解クラスである確率」のずれに基づいて損失を決める方法です。
二値分類は、下の 二値クロスエントロピーを読み解くで を要素ごとに解釈します。
二値クロスエントロピーを読み解く
- — ラベル。
- — クラス1の確率(0~1)。
- — 通常は自然対数。
のとき — となり です。 が高いほど損失は小さくなります。
のとき — となり 。 はクラス0の確率です。
と では どちらか一方だけが有効になり、正解側の確率を高める方向に学習が進みます。
多クラス — 正解クラス については、1サンプルあたりの損失を通常
(ソフトマックスの確率と組で使うことが多い)とします。正解クラスの予測確率 が低いほど損失が大きくなり、学習はその確率を押し上げます。
(決定係数):「平均で当てる」よりどれだけ良いか
回帰では MSE/RMSEで誤差の大きさを見ますが、さらに一歩進んで「モデルが 基準線(平均予測)よりどれだけよく説明できたか」を知りたいときに も見ます。
まず記号を整理
- :番目のデータの実際の値。
- :番目のデータの予測値。
- :全 の平均。
- SSE = :モデルの二乗誤差和(小さいほど良い)
- SST = :基準線(平均だけで当てる)での二乗誤差和
計算手順(超シンプル)
1. まず を求めます(実測値の平均)。
2. 基準線の誤差である を計算します。
3. モデルの誤差である を計算します。
4. を使います。
解釈ガイド(最重要)
- :SSE=0 → ほぼ完全な一致
- :SSE=SST → 平均だけで当てるのと同程度
- :SSE>SST → 平均の基準線より悪い
つまり は「基準線に対して二乗誤差がどれだけ減ったか」を比率で示します。
短い数値例
真の値が で、平均 だとします。
- 基準線(平均だけ):
- モデルの予測 のとき:
したがって
→ モデルは「平均予測」に比べて二乗誤差を約75%減らしたことになります。
注意:だけに頼らない
- は比率なので、データセットが違うと値の比較が難しいことがあります。
- 実務では通常 RMSE + (誤差の大きさ + 説明力)をセットで報告します。
なぜ重要か
学習の方向 — 回帰で損失がMSEなら、MSEが下がる方向にだけ更新でき目標が明確です。
MSEは最適化しやすい — 2乗は滑らかで微分しやすく、勾配降下に向きます。
RMSE — MSEは二乗の単位; で と同じ単位に戻して解釈できます。
タスクに合わせる — 連続値はMSE、クラス確率はクロスエントロピーが自然で、最尤とも整合します。Ch.05 ロジスティック回帰でシグモイドの と損失のつながりを続けます。
どのように使われるか
回帰の学習 — 価格・気温などで MSE を最小化。
モデル比較(回帰) — MSE が小さい方が良いフィット。
DNNの回帰出力 — 数値予測の出力層でMSEをよく使います。
分類 — ロジスティック、ソフトマックス分類、ニューラル分類では クロスエントロピー を最小化するのが一般的です。