Ch.04
线性回归:贯穿数据趋势的直线
当数据点分散时,线性回归找出贯穿其趋势的直线,并对新输入进行预测。这是第一个能直接看到基础数学中的函数、微分、偏微分如何通向机器学习「训练」的回归模型。
按章节的机器学习图示
选择章节后,下方图示会切换为该章节内容。可一览机器学习脉络。
① 训练数据 — (x, y) 散点图
— 梯度下降学习 ,
线性回归:贯穿数据趋势的直线
什么是线性回归? — 假设输入 与输出 之间存在线性关系 (多变量时为 ),并寻找与数据最拟合的权重 和截距 。基础数学 Ch01 的函数 在这里具体化为一次函数。
「最拟合」的含义 — 最小化预测值 与真实值 之间的误差。衡量该误差的函数是损失函数,Ch04 将学习的MSE(均方误差)是最常用的。
与 KNN 的区别 — KNN 用「近邻的平均」预测,而线性回归学习并保存一个公式(直线)。预测时无需搜索近邻,只需计算 。
为何重要
微分与优化的首次应用 — 要最小化误差,需使用微分(基础数学 Ch06)。沿损失函数对 、 的梯度下降即可到达最小值。这正是梯度下降法,与深度学习训练的原理相同。
可解释性 — 学到的 表示「 增加 1 时 变化多少」。例如房屋面积()与价格(), 表示「面积越大越贵」,符合直觉。这种可解释性在实际中信任和改进模型时很重要。
其他模型的基础 — 逻辑回归(Ch05)、神经网络中的单个神经元,都是「线性变换 + 非线性函数」结构。理解线性回归,就能理解它们的线性部分如何工作。
如何被使用
回归 — 用于预测连续数值:房价、销量、温度、分数等。多特征时为 的多元线性回归。
特征重要性 — 越大的特征对预测影响越大。做特征工程(Ch01)时,可用这些值决定保留或剔除哪些特征。
正规方程 vs 梯度下降 — 特征较少时可用正规方程一步求得最优解。特征多或数据量大时,用梯度下降法迭代更新 。基础数学 Ch08 的偏微分与梯度是这里的核心工具。