Ch.03
损失函数 (MSE):衡量预测与真值的误差
线性回归中找「最拟合直线」时,需要用一个数来衡量预测与真值的差距。各点上预测 与实际 的差(误差)平方后求和,得到 平方误差和 SSE(Sum of Squared Errors),再除以数据个数即得 均方误差 MSE(Mean Squared Error)。MSE 越接近 0 说明模型拟合越好,梯度下降要最小化的正是这个 MSE。
按章节的机器学习图示
选择章节后,下方图示会切换为该章节内容。可一览机器学习脉络。
预测 与实际 的差平方后取平均即为 MSE。
MSE — 损失越小,直线对数据拟合越好。
损失函数 (MSE)
误差的尺子 — 需要有一个损失函数来概括模型错得有多厉害。每点上实际值 与预测值 的差称为残差(误差)。将各残差平方后全部相加,得到 平方误差和 SSE(Sum of Squared Errors);再除以数据个数 ,即得 均方误差 MSE(Mean Squared Error):。该值越小,说明模型拟合得越好。
为何平方? — 残差 与 都表示「差 2」。直接相加会相互抵消,平方后恒为正,且大误差惩罚更重。
与线性回归的联系 — Ch03 的直线 「最拟合数据」是指:让平方误差和 SSE 除以数据个数得到的 MSE 达到最小,从而确定斜率 和截距 。梯度下降就是沿减小 MSE 的方向更新 , 。
定义学习目标 — 机器学习常概括为「最小化损失」。回归中损失取为 MSE 时,模型只朝降低 MSE 的方向更新,目标明确。
便于求导 — 平方函数求导形式简单,梯度下降易算;深度学习中也广泛使用平方误差类损失。
RMSE:恢复原有单位 — MSE 是对误差平方再求平均,所以单位是「 的平方」(例如价格预测时是「元²」)。实际中常希望用「平均差多少元、多少度」这种原单位表达,这时会对 MSE 开平方,得到 RMSE(Root Mean Squared Error, 均方根误差):,与 同单位。理解 MSE 后,RMSE 就很容易理解。
回归模型训练 — 线性回归、神经网络回归等在训练数据上计算 MSE,并沿减小 MSE 的方向更新参数。
模型比较 — 比较哪条直线(或模型)更拟合数据时,分别算 MSE,数值更小的更好。
验证与测试 — 训练后在未见数据上算 MSE,可得泛化性能的客观指标。
损失函数(MSE)小结
① 概念脉络 — 实际值 与预测值 之差称为残差(误差) 。将各点残差平方后求和得平方误差和(SSE) ,再除以数据个数 得均方误差(MSE) 。需要与 同单位时使用 RMSE 。
② 为何用平方? — 误差为 或 都表示「差 3」。直接相加会正负相抵,平方后恒为正,并对大误差施加更大惩罚,促使模型减少严重错误。
③ 在学习中的作用 — MSE 是指南针:「往使该值变小的方向更新」。梯度下降沿减小 MSE 的方向更新 、。平方函数光滑、易求导,便于用梯度下降找到最小值。
④ 使用场景 — 回归(价格·气温·股价预测等)训练、模型比较(MSE 越小越优)、深度学习输出层损失。解题步骤与数值例题见下方解题说明区块。