Ch.11

正则化：超越死记硬背

防止模型变成只会背题集答案的 「死记硬背王」 的核心技术。对训练数据拟合过紧，稍有不同的新题就会出现崩盘，这就是 过拟合(Overfitting) 。 正则化(Regularization) 在减小数据误差的同时，施加 「不让模型变得过于复杂、生搬硬套」的惩罚（代价） ，从而剪掉枝杈、只学真正重要的模式，打造在实战（泛化）中更强的模型。

选择章节后，下方图示会切换为该章节内容。可一览机器学习脉络。

在损失中加入「模型过于复杂」的惩罚项，使模型泛化而非死记。

① 无正则化 — 只最小化训练损失会导致 过拟合

② 引入正则 — 损失 = 数据损失 + λ\times惩罚； λ 越大权重越被压制

\sum w_j^2

\sum |w_j|

⑤ 泛化 — 合适的 λ 在训练与验证上均表现良好

正则化：损失+λ·惩罚以减轻过拟合、提升泛化。

正则化是什么？对复杂度的「惩罚」 当模型强行拟合训练数据中的细微噪声或例外时，公式会变得弯弯曲曲、毫无必要地复杂。正则化在计算 总损失(Loss) 时，不仅看「预测与正确答案差多少（误差）」，还会加上 「模型有多复杂（权重大小）」 作为惩罚。不想被罚的模型自然会保持更简单、干净的形式。

直观比喻：考前死记型 vs 吃透原理型 把题集（训练数据）逐字背下来的死记型学生，模拟考能拿满分，真考（新数据）却一塌糊涂。而吃透原理的学生，模拟考错一两题，真考却能稳定高分。正则化就像老师，强制模型 「剪掉枝杈（过大权重）、只看主杆（核心模式）」 ，培养实战中的应变能力。

J = \text{MSE} + \lambda \sum_{j} w_j^2

生活例子：垃圾邮件过滤与医疗诊断 过滤垃圾邮件时，若给训练垃圾邮件里偶然出现的普通词（如「你好」）很高权重，会把正常邮件也判成垃圾。加上正则化可以避免模型死盯某一个词（权重爆炸）。医疗诊断中，也能帮助 AI 在众多患者数据里不被「病服颜色」这类无关信息误导。

J = \text{MSE} + \lambda \sum_{j} w_j^2

因为实战（泛化）表现才是真正目标 机器学习的价值不是在练习阶段，而是在遇到 从未见过的数据（测试数据） 时才体现。加上正则化后，训练集上的准确率可能略降，但实战中的准确率会明显提高。这种对未知数据也能应对良好的能力就叫 泛化(Generalization) 。

\lambda

\lambda

给基础模型装上翅膀（Ridge & Lasso） 只需在常用的 线性回归 或 逻辑回归 公式末尾，悄悄加上刚学的 L1、L2 惩罚即可。 - 线性回归 + L2 = Ridge 回归 - 线性回归 + L1 = Lasso 回归 计算机会沿「总损失（含惩罚）变小」的方向（如梯度下降）学习并自动调节权重。

\lambda

正则化通过给损失加 惩罚项 来减轻 过拟合 。 总损失 = 数据损失 + λ\times惩罚。 λ 越大权重越被压制，模型越简单。 L2 用权重平方和， L1 用绝对值之和并可得到 稀疏 权重。实践中对线性/逻辑回归使用 Ridge(L2) \cdot Lasso(L1) ，λ 由 交叉验证 选择。