What is machine learning?

Machine learning learns patterns from data to make predictions. Start with https://mdooai.com/zh/learn/ml/mlSupervisedUnsupervisedSelf.

What is the difference between ML and DL?

Deep learning is a subset of machine learning focused on neural networks. Build foundations at https://mdooai.com/zh/learn/ml/mlDataFeature first.

How do I start hyperparameter tuning?

Use cross-validation while narrowing search ranges. Start at https://mdooai.com/zh/learn/ml/mlCrossValidation.

Ch.05

损失函数 (MSE·交叉熵·R²)：衡量预测与真值的误差

\hat y

按章节的机器学习图示

选择章节后，下方图示会切换为该章节内容。可一览机器学习脉络。

\hat y

= \frac{1}{n}\sum_i (y_i - \hat y_i)^2

损失函数 (MSE·交叉熵·R²)：衡量预测与真值的误差

y

为何重要

\sqrt{\text{MSE}}

如何被使用

回归训练 — 房价、气温等用 MSE 最小化。 模型比较（回归） — MSE 更小更优。 深度网络回归输出 — 数值预测输出层常用 MSE。 分类 — 逻辑回归、softmax、神经网络分类通常最小化 交叉熵 。

损失函数 (MSE·交叉熵·R²)：衡量预测与真值的误差

回归：MSE

需要用损失把误差概括成一个数。

- 残差 — 真实值

y

与预测

\hat y

的差。

- SSE — 各点

(y-\hat y)^2

之和（平方误差和）。

- MSE — SSE 除以样本数

n

（均方误差）。

\text{MSE} = \frac{1}{n}\sum (y - \hat y)^2 = \text{SSE}/n

— 越小拟合越好。

为何平方？

+2

与

-2

都表示「偏差大小为 2」，直接相加会抵消。

- 平方后恒为正，只比较大小。

- 偏差越大惩罚越大，模型更避免大误差。

与线性回归

Ch03 的直线

\hat y=wx+b

即选择使 MSE（或 SSE）最小的

w

b

。

梯度下降沿减小 MSE 的方向更新参数。

回归：MSE是残差平方的平均

MSE是把残差

y_i-\hat y_i

进行平方并取平均得到的误差评分。预测越接近真实，残差越小，MSE也就越小。

拆开看 MSE

\text{MSE} = \frac{1}{n}\sum_i (y_i - \hat y_i)^2

- $i$ — 样本编号。

- $y_i$ — 真实值。

- $\hat y_i$ — 预测值。

- $y_i - \hat y_i$ — 残差。

- $(y_i - \hat y_i)^2$ — 平方误差。

- $\sum_i$ — 求和得 SSE。

- $\frac{1}{n}$ — 取平均得 MSE。

预测越接近真实，残差与 MSE 越小。

分类：交叉熵

交叉熵用来度量模型对真实类别概率的预测有多“偏”。

二分类的

\ell

会在下面的 拆开看二分类交叉熵 中逐项解释。

拆开看二分类交叉熵

\ell = -\big(y\log\hat p + (1-y)\log(1-\hat p)\big)

- $y \in \lbrace 0,1 \rbrace$ — 标签。

- $\hat p$ — 正类（类别1）的预测概率（0～1）。

- $\log$ — 通常取自然对数。

$y=1$ 时 —

(1-y)\log(1-\hat p)=0

，所以

\ell = -\log\hat p

。

\hat p

越大，损失越小。

$y=0$ 时 —

y\log\hat p=0

，所以

\ell = -\log(1-\hat p)

。

1-\hat p

是负类（类别0）的概率。

这两项

y\log\hat p

和

(1-y)\log(1-\hat p)

表示每个样本只会激活其中一条分支，从而把概率推向真实类别。

多分类 — 对真实类别

k

，通常定义单样本损失为

\ell = -\log \hat p_k

（常与 softmax 概率配对）。当真实类别的预测概率

\hat p_k

很低时，损失会很大，训练会把它推高。

$R^2$ （决定系数）：「只预测均值」能提升多少

回归中 MSE/RMSE 用来衡量误差大小；进一步你还想知道模型相对基线（均值预测）解释了多少变动，就再看 $R^2$ 。

R^2 = 1 - \frac{\sum_i (y_i-\hat y_i)^2}{\sum_i (y_i-\bar y)^2} = 1 - \frac{\text{SSE}}{\text{SST}}

先整理符号

y_i

：第 i 个样本真实值。

\hat y_i

：第 i 个样本的预测值。

\bar y

：所有

y_i

的平均。

- SSE =

\sum_i (y_i-\hat y_i)^2

：模型的二乘误差和（越小越好）

- SST =

\sum_i (y_i-\bar y)^2

：基线（只用均值）情况下的二乘误差和

计算步骤（超简）

1. 先求

\bar y

。

2. 计算基线误差

\text{SST} = \sum_i (y_i-\bar y)^2

。

3. 计算模型误差

\text{SSE} = \sum_i (y_i-\hat y_i)^2

。

R^2 = 1 - \text{SSE}/\text{SST}

。

解读指南（最重要）

R^2 = 1

：SSE=0 → 预测几乎完全一致

R^2 = 0

：SSE=SST → 与“只预测均值”水平接近

R^2 < 0

：SSE>SST → 比均值基线还差

因此，

R^2

会告诉你：相对基线，二乘误差减少了多少（用一个比率表示）。

一个简短数值例子

设真实值为

y=[3,5,7]

，于是

\bar y=5

。

- 基线（只预测均值）：

\text{SST}=(3-5)^2+(5-5)^2+(7-5)^2=4+0+4=8

- 模型预测

\hat y=[4,5,6]

：

\text{SSE}=(3-4)^2+(5-5)^2+(7-6)^2=1+0+1=2

所以

R^2 = 1 - 2/8 = 0.75

→ 相对“预测均值”，模型把二乘误差大约减少了 75%。

注意：不要只看 $R^2$

- 因为

R^2

是比率，不同数据集上数值不一定能直接对比。

- 实务中通常把 RMSE + $R^2$ 放在一起看（误差大小 + 解释力）。