Chapter 08
偏导数与梯度:多变量的世界,梯度下降的方向
当变量有多个时,只对一个变量求导、其余视为常数,就是偏导数;把它们排成向量就是梯度。这是梯度下降的基础。
按章节的数学图示
选择章节后,下方图示会切换为该章节内容。可一览基础数学的脉络。
只动 x 时的斜率、只动 y 时的斜率就是偏导数。把这两个合起来的方向就是梯度。
横箭头 = 只改 x 时的斜率,竖箭头 = 只改 y 时的斜率。斜向是两者合成的梯度 — 增加最快的方向。
- 横箭头: 固定、只动 时的斜率 → 偏导数
- 竖箭头: 固定、只动 时的斜率 → 偏导数
- 斜箭头:两个偏导数合成方向 → 梯度 (增加最快的方向)
什么是偏导数与梯度
对于多个变量的函数,只让一个变量变化、其余视为常数求导,就是偏导数。梯度是把偏导数排成的向量。核心公式一个:。
直观例子:爬山时(高度 ,平面坐标 ),往东()走一步的高度变化和往北()走一步的高度变化不同。偏导数就是分别只算「只动 的斜率」和「只动 的斜率」。梯度 是把这两个数排成的向量,表示「往山顶最陡的方向」。
例: 时,只对 求导( 当常数)得 ,只对 求导得 。所以 。
梯度指向函数值增加最快的方向。沿反方向移动则减少最快。梯度下降就是沿梯度的反方向更新参数。
数字例子: 时, 增加 1 则 增加 1(对 的偏导为 1), 增加 1 则 增加 2(对 的偏导为 2)。梯度为 。在山地上表示 方向比 方向陡一倍,沿 方向爬得最快。
因为这就是深度学习模型的学习原理本身。AI 模型有数千万、数亿个参数(权重 )。我们需要知道「该调哪个权重、怎么调才能减小误差」,但一次性考虑数亿个变量不现实。偏导数让我们拆开看:「其他权重不动、只动 时的影响」可以一个一个分析。
梯度是所有权重的修改说明书。一旦得到包含「 略增、 大减」等信息的向量 ,AI 就能一次计算同时把数亿个权重朝正确方向更新。
偏导数和梯度是多变量优化的基本语言。求损失函数的梯度、再沿其反方向一步一步移动,就是梯度下降;AI 就是靠它在复杂数据里找到通往答案的路径。
用作梯度下降(Gradient Descent)的引擎。好比蒙眼下山:用脚感觉四周坡度,往最下坡的方向迈一步。梯度指向增加最快的方向,所以要减小误差必须往反方向(负号)走。公式上就是 新参数 = 旧参数 −(学习率 梯度)。负号正是为了朝误差减小的方向更新。
- 情境减小误差
- 用到什么对损失函数 关于每个权重 做偏导数(),判断该权重是不是误差的主要来源。
- 情境找最优方向
- 用到什么把所有参数的偏导数排成梯度,沿其反方向移动,找到「误差谷」的谷底。
- 情境高效大规模训练
- 用到什么不看全量数据,只用小批(minibatch)估计梯度、快速更新,即 SGD(随机梯度下降)。
- 情境多变量影响分析
- 用到什么经济学里需求同时受价格和收入影响时,用偏导数分析「收入不变、只涨价格会怎样」等单因素影响。
| 情境 | 用到什么 |
|---|---|
| 减小误差 | 对损失函数 关于每个权重 做偏导数(),判断该权重是不是误差的主要来源。 |
| 找最优方向 | 把所有参数的偏导数排成梯度,沿其反方向移动,找到「误差谷」的谷底。 |
| 高效大规模训练 | 不看全量数据,只用小批(minibatch)估计梯度、快速更新,即 SGD(随机梯度下降)。 |
| 多变量影响分析 | 经济学里需求同时受价格和收入影响时,用偏导数分析「收入不变、只涨价格会怎样」等单因素影响。 |
AI 自动训练:在 PyTorch、TensorFlow 里调用 `loss.backward()` 时,系统会对所有权重做偏导数并算出梯度向量。有了这个梯度,优化器(Optimizer)才能更新权重。从 ChatGPT 这类大语言模型到图像识别,现代 AI 都是沿着这个梯度变聪明的。
求偏导时,只把被求导的变量当变量,其余当常数。梯度就是按顺序把偏导数排成的向量。提示: 就是把 当常数只对 求导。
最简单例:。只对 求导时把 当常数 → 。只对 求导时把 当常数 → 。所以 。在点 处梯度也是 。
从易到难的例题见下表。对单变量而言与 Ch06 导数公式相同。
- 问题,
- 解答 为常数 → 3
- 问题,
- 解答 为常数 → 2
- 问题,
- 解答 为常数 →
- 问题,
- 解答
| 问题 | 解答 |
|---|---|
| , | 为常数 → 3 |
| , | 为常数 → 2 |
| , | 为常数 → |
| , |
按题型解题
- 类型对 偏导
- 说明
- 求法把 当常数只对 求导。一次式则 的系数, 则 。
- 类型对 偏导
- 说明
- 求法把 当常数只对 求导。
- 类型梯度
- 说明
- 求法两个偏导按顺序组成向量。在点 处代入 、。
| 类型 | 说明 | 求法 |
|---|---|---|
| 对 偏导 | 把 当常数只对 求导。一次式则 的系数, 则 。 | |
| 对 偏导 | 把 当常数只对 求导。 | |
| 梯度 | 两个偏导按顺序组成向量。在点 处代入 、。 |
例(对 x 偏导)
时求 及在 处的值。
解
当常数则 。 处也为 3。→ 答 3
例(对 y 偏导)
时求 及在 处的值。
解
当常数则 。 处也为 2。→ 答 2
例(梯度)
时求 及在 处的梯度。
解
,,故 。 处为 。→ 答 (2, 4) 或分量 2、4