Ch.03

선형 회귀 (Linear Regression): 데이터의 흐름을 꿰뚫는 선

当数据点分散时,线性回归找出贯穿其趋势的直线,并对新输入进行预测。这是第一个能直接看到基础数学中的函数微分偏微分如何通向机器学习「训练」的回归模型。

按章节的机器学习图示

选择章节后,下方图示会切换为该章节内容。可一览机器学习脉络。

① 训练数据 — (x, y) 散点图

y0.7x+1.1y \approx 0.7x + 1.1 — 梯度下降学习 ww, bb

线性回归:贯穿数据趋势的直线

什么是线性回归? — 假设输入 xx 与输出 yy 之间存在线性关系 y=w1x+w0y = w_1 x + w_0(多变量时为 y=wx+by = \mathbf{w}^\top \mathbf{x} + b),并寻找与数据最拟合的权重 ww 和截距 bb。基础数学 Ch01 的函数 y=f(x)y = f(x) 在这里具体化为一次函数
「最拟合」的含义 — 最小化预测值 y^i=wxi+b\hat{y}_i = w x_i + b 与真实值 yiy_i 之间的误差。衡量该误差的函数是损失函数,Ch04 将学习的MSE(均方误差)是最常用的。
与 KNN 的区别 — KNN 用「近邻的平均」预测,而线性回归学习并保存一个公式(直线)。预测时无需搜索近邻,只需计算 y^=wx+b\hat{y} = w x + b
微分与优化的首次应用 — 要最小化误差,需使用微分(基础数学 Ch06)。沿损失函数对 wwbb梯度下降即可到达最小值。这正是梯度下降法,与深度学习训练的原理相同。
可解释性 — 学到的 ww 表示「xx 增加 1 时 yy 变化多少」。例如房屋面积(xx)与价格(yy),w>0w > 0 表示「面积越大越贵」,符合直觉。这种可解释性在实际中信任和改进模型时很重要。
其他模型的基础 — 逻辑回归(Ch05)、神经网络中的单个神经元,都是「线性变换 + 非线性函数」结构。理解线性回归,就能理解它们的线性部分如何工作。
回归 — 用于预测连续数值:房价、销量、温度、分数等。多特征时为 y=w1x1+w2x2++wnxn+by = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + b多元线性回归
特征重要性wi|w_i| 越大的特征对预测影响越大。做特征工程(Ch01)时,可用这些值决定保留或剔除哪些特征。
正规方程 vs 梯度下降 — 特征较少时可用正规方程一步求得最优解。特征多或数据量大时,用梯度下降法迭代更新 ww。基础数学 Ch08 的偏微分与梯度是这里的核心工具。
概要:不断减小误差的「试错」过程 — 线性回归像侦探一样,在散落的数据点间寻找唯一一条最能贯穿它们的直线y=wx+by=wx+b)。模型(假设):起初随机画一条线,自然与真实数据不符,误差很大。学习:为减小误差使用梯度下降——就像蒙眼从山顶一步步往下走,寻找最低的谷底(误差最小处)。预测:到达谷底就找到了最优斜率(ww)和位置(bb)。之后新问题(xx)一来,只需代入这条完成的公式,即可立刻预测答案(y^\hat{y})。
从数据中提取法则的三步 — 线性回归是在复杂数据中找出 y=wx+by=wx+b 这条简单法则的过程。
① 建立模型 — 假设「输入(xx)与目标(yy)呈线性关系」,据此设定模型。
② 优化(训练) — 计算预测值(y^\hat{y})与实际值(yy)之差即损失,用梯度下降逐步更新 ww(斜率)和 bb(截距)以最小化损失。这与深度学习的学习原理完全相同。
③ 推理(预测) — 学到的直线压缩了数据的模式。新数据到来时,无需复杂运算,直接代入直线公式即可立刻得到预测结果。