大家的AI
机器学习AI论文
加载中…

学习

🏅我的成就

Ch.03

线性回归:贯穿数据趋势的直线

当数据点分散时,线性回归找出贯穿其趋势的直线,并对新输入进行预测。这是第一个能直接看到基础数学中的函数、微分、偏微分如何通向机器学习「训练」的回归模型。

按章节的机器学习图示

选择章节后,下方图示会切换为该章节内容。可一览机器学习脉络。

① 训练数据 — (x, y) 散点图

xy

y≈0.7x+1.1y \approx 0.7x + 1.1y≈0.7x+1.1 — 梯度下降学习 www, bbb

线性回归:贯穿数据趋势的直线

什么是线性回归? — 假设输入 xxx 与输出 yyy 之间存在线性关系 y=w1x+w0y = w_1 x + w_0y=w1​x+w0​(多变量时为 y=w⊤x+by = \mathbf{w}^\top \mathbf{x} + by=w⊤x+b),并寻找与数据最拟合的权重 www 和截距 bbb。基础数学 Ch01 的函数 y=f(x)y = f(x)y=f(x) 在这里具体化为一次函数。
「最拟合」的含义 — 最小化预测值 y^i=wxi+b\hat{y}_i = w x_i + by^​i​=wxi​+b 与真实值 yiy_iyi​ 之间的误差。衡量该误差的函数是损失函数,Ch04 将学习的MSE(均方误差)是最常用的。
与 KNN 的区别 — KNN 用「近邻的平均」预测,而线性回归学习并保存一个公式(直线)。预测时无需搜索近邻,只需计算 y^=wx+b\hat{y} = w x + by^​=wx+b。
微分与优化的首次应用 — 要最小化误差,需使用微分(基础数学 Ch06)。沿损失函数对 www、bbb 的梯度下降即可到达最小值。这正是梯度下降法,与深度学习训练的原理相同。
可解释性 — 学到的 www 表示「xxx 增加 1 时 yyy 变化多少」。例如房屋面积(xxx)与价格(yyy),w>0w > 0w>0 表示「面积越大越贵」,符合直觉。这种可解释性在实际中信任和改进模型时很重要。
其他模型的基础 — 逻辑回归(Ch05)、神经网络中的单个神经元,都是「线性变换 + 非线性函数」结构。理解线性回归,就能理解它们的线性部分如何工作。
回归 — 用于预测连续数值:房价、销量、温度、分数等。多特征时为 y=w1x1+w2x2+⋯+wnxn+by = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + by=w1​x1​+w2​x2​+⋯+wn​xn​+b 的多元线性回归。
特征重要性 — ∣wi∣|w_i|∣wi​∣ 越大的特征对预测影响越大。做特征工程(Ch01)时,可用这些值决定保留或剔除哪些特征。
正规方程 vs 梯度下降 — 特征较少时可用正规方程一步求得最优解。特征多或数据量大时,用梯度下降法迭代更新 www。基础数学 Ch08 的偏微分与梯度是这里的核心工具。
概要:不断减小误差的「试错」过程 — 线性回归像侦探一样,在散落的数据点间寻找唯一一条最能贯穿它们的直线(y=wx+by=wx+by=wx+b)。模型(假设):起初随机画一条线,自然与真实数据不符,误差很大。学习:为减小误差使用梯度下降——就像蒙眼从山顶一步步往下走,寻找最低的谷底(误差最小处)。预测:到达谷底就找到了最优斜率(www)和位置(bbb)。之后新问题(xxx)一来,只需代入这条完成的公式,即可立刻预测答案(y^\hat{y}y^​)。
从数据中提取法则的三步 — 线性回归是在复杂数据中找出 y=wx+by=wx+by=wx+b 这条简单法则的过程。
① 建立模型 — 假设「输入(xxx)与目标(yyy)呈线性关系」,据此设定模型。
② 优化(训练) — 计算预测值(y^\hat{y}y^​)与实际值(yyy)之差即损失,用梯度下降逐步更新 www(斜率)和 bbb(截距)以最小化损失。这与深度学习的学习原理完全相同。
③ 推理(预测) — 学到的直线压缩了数据的模式。新数据到来时,无需复杂运算,直接代入直线公式即可立刻得到预测结果。