Ch.11

正則化：暗記の限界を超えて

モデルが問題集の答えを丸暗記する 「暗記王」 にならないようにするための核となる技術です。訓練データに合わせすぎると、少し違う新問が出ただけで崩れてしまいます。これが 過学習(Overfitting) です。 正則化(Regularization) は、データの誤差を減らしつつ、 「複雑で無理やりな式を作らせない」ためのペナルティ（罰則） を加えます。枝葉を落とし本当に重要なパターンだけを学ばせることで、実戦（一般化）に強いモデルを作ります。

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。

データの誤差だけでなく「モデルが複雑になりすぎること」にペナルティを加え、暗記ではなく一般化するモデルにします。

① 正則化なし — 訓練損失だけを減らすと 過学習

② 正則化 — 損失 = データ損失 + λ\timesペナルティ。 λが大きいと重みが抑制される

\sum w_j^2

\sum |w_j|

⑤ 一般化 — 適切なλで 訓練・検証ともによく当たるモデルを得る

正則化：損失+λ·ペナルティで過学習を抑え一般化を高める。

正則化とは？ 複雑さへの「罰則」 モデルが訓練データの細かいノイズや例外まで無理に合わせようとすると、式がぐにゃぐにゃして不要に複雑になります。正則化では 総損失(Loss) を、「正解とどれだけ違うか（誤差）」だけでなく 「モデルがどれだけ複雑か（重みの大きさ）」 も足して罰則にします。罰則を避けたいモデルは、自然とより単純で整理された形を保ちます。

直感的な比喩：一夜漬け暗記王 vs 原理を掘る生徒 問題集（訓練データ）の数字まで丸暗記した一夜漬け生徒は模試では100点でも、本番（新しいデータ）では大敗します。一方、原理を理解した生徒は模試で一二問間違えても、本番では崩れず高得点です。正則化はモデルに 「枝葉（過剰な重み）を切り落とし、太い幹（本質的なパターン）だけ見ろ」 と強制し、実戦でのしなやかさを育てる先生のような役割をします。

J = \text{MSE} + \lambda \sum_{j} w_j^2

身近な例：スパムフィルタと医療診断 スパムフィルタでは、訓練スパムに偶然含まれていた普通の語（「こんにちは」など）に高い重みをつけると、正常メールまでスパム扱いする大失敗をします。正則化をかけると、一つの語に固執する（重みが爆発する）のを防げます。医療診断でも、多数の患者データのうち「患者服の色」のような無意味な情報にAIが騙されないようにするのに役立ちます。

J = \text{MSE} + \lambda \sum_{j} w_j^2

実戦（一般化）性能が本当の目標だから 機械学習の真価が発揮されるのは練習中ではなく、 「初めて見るデータ（テストデータ）」 に会ったときです。正則化をかけると訓練データでの精度は少し落ちることがありますが、実戦での精度は上がります。こうした未知データにもうまく対応する力を 一般化(Generalization) といいます。

\lambda

\lambda

基本モデルに翼をつける（Ridge & Lasso） よく使う 線形回帰 や ロジスティック回帰 の式の末尾に、今学んだL1・L2の罰則をちょっと足すだけです。 - 線形回帰 + L2 = Ridge回帰 - 線形回帰 + L1 = Lasso回帰 計算機が罰則込みの総損失を減らす方向（勾配降下など）で学習し、重みを調整してくれます。

\lambda

正則化は 過学習 を抑えるため、損失に ペナルティ を足す方法です。 総損失 ＝データ損失＋λ\timesペナルティ。 λ が大きいほど重みが抑制されモデルは単純に。 L2 は重みの二乗和、 L1 は絶対値の和で スパース な重みになり得る。実務では Ridge(L2) ・ Lasso(L1) を線形・ロジスティック回帰に適用し、λは 交差検証 で選ぶ。