Chapter 08

偏导数与梯度：多变量的世界，梯度下降的方向

当变量有多个时，只对 一个变量 求导、其余视为常数，就是 偏导数 ；把它们排成向量就是 梯度 。这是梯度下降的基础。

按章节的数学图示

选择章节后，下方图示会切换为该章节内容。可一览基础数学的脉络。

只动 x 时的斜率、只动 y 时的斜率就是偏导数。把这两个合起来的方向就是梯度。

横箭头 = 只改 x 时的斜率，竖箭头 = 只改 y 时的斜率。斜向是两者合成的梯度 — 增加最快的方向。

横箭头： $y$ 固定、只动 $x$ 时的斜率 → 偏导数 $\frac{\partial f}{\partial x}$
竖箭头： $x$ 固定、只动 $y$ 时的斜率 → 偏导数 $\frac{\partial f}{\partial y}$
斜箭头：两个偏导数合成方向 → 梯度 $\nabla f$ （增加最快的方向）

什么是偏导数与梯度

对于多个变量的函数，只让一个变量变化、其余视为常数求导，就是偏导数。梯度是把偏导数排成的向量。核心公式一个：

\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})

。

直观例子：爬山时（高度

z

，平面坐标

x,y

），往东（

x

）走一步的高度变化和往北（

y

）走一步的高度变化不同。偏导数就是分别只算「只动

x

的斜率」和「只动

y

的斜率」。梯度

\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})

是把这两个数排成的向量，表示「往山顶最陡的方向」。

例：

f(x,y)=x^{2}+y^{2}

时，只对

x

求导（

y

当常数）得

2x

，只对

y

求导得

2y

。所以

\nabla f = (2x, 2y)

。

梯度指向函数值增加最快的方向。沿反方向移动则减少最快。梯度下降就是沿梯度的反方向更新参数。

数字例子：

f(x,y)=x+2y

时，

x

增加 1 则

f

增加 1（对

x

的偏导为 1），

y

增加 1 则

f

增加 2（对

y

的偏导为 2）。梯度为

(1, 2)

。在山地上表示

y

方向比

x

方向陡一倍，沿

(1,2)

方向爬得最快。

因为这就是深度学习模型的学习原理本身。AI 模型有数千万、数亿个参数（权重

w_1, w_2, ...

）。我们需要知道「该调哪个权重、怎么调才能减小误差」，但一次性考虑数亿个变量不现实。偏导数让我们拆开看：「其他权重不动、只动

w_1

时的影响」可以一个一个分析。

梯度是所有权重的修改说明书。一旦得到包含「

w_1

略增、

w_2

大减」等信息的向量

\nabla L

，AI 就能一次计算同时把数亿个权重朝正确方向更新。

偏导数和梯度是多变量优化的基本语言。求损失函数的梯度、再沿其反方向一步一步移动，就是梯度下降；AI 就是靠它在复杂数据里找到通往答案的路径。

用作梯度下降（Gradient Descent）的引擎。好比蒙眼下山：用脚感觉四周坡度，往最下坡的方向迈一步。梯度指向增加最快的方向，所以要减小误差必须往反方向（负号）走。公式上就是 新参数 = 旧参数 −（学习率 $\times$ 梯度）。负号正是为了朝误差减小的方向更新。

情境 $减小误差$
用到什么 $L$

情境 $找最优方向$
用到什么 $把所有参数的偏导数排成梯度，沿其反方向移动，找到「误差谷」的谷底。$

情境 $高效大规模训练$
用到什么 $不看全量数据，只用小批（minibatch）估计梯度、快速更新，即 SGD（随机梯度下降）。$

情境 $多变量影响分析$
用到什么 $经济学里需求同时受价格和收入影响时，用偏导数分析「收入不变、只涨价格会怎样」等单因素影响。$

情境	用到什么
减小误差	对损失函数 $L$ 关于每个权重 $w$ 做偏导数（ $\frac{\partial L}{\partial w}$ ），判断该权重是不是误差的主要来源。
找最优方向	把所有参数的偏导数排成梯度，沿其反方向移动，找到「误差谷」的谷底。
高效大规模训练	不看全量数据，只用小批（minibatch）估计梯度、快速更新，即 SGD（随机梯度下降）。
多变量影响分析	经济学里需求同时受价格和收入影响时，用偏导数分析「收入不变、只涨价格会怎样」等单因素影响。

AI 自动训练：在 PyTorch、TensorFlow 里调用 `loss.backward()` 时，系统会对所有权重做偏导数并算出梯度向量。有了这个梯度，优化器（Optimizer）才能更新权重。从 ChatGPT 这类大语言模型到图像识别，现代 AI 都是沿着这个梯度变聪明的。

求偏导时，只把被求导的变量当变量，其余当常数。梯度就是按顺序把偏导数排成的向量。提示：

\frac{\partial f}{\partial x}

就是把

y

当常数只对

x

求导。

最简单例：

f=3x+2y

。只对

x

求导时把

y

当常数 →

\partial f/\partial x = 3

。只对

y

求导时把

x

当常数 →

\partial f/\partial y = 2

。所以

\nabla f = (3, 2)

。在点

(1,1)

处梯度也是

(3, 2)

。

从易到难的例题见下表。对单变量而言与 Ch06 导数公式相同。

问题 $f=3x+2y$
解答 $y$

问题 $f=3x+2y$
解答 $x$

问题 $f=x^{2}y$
解答 $y$

问题 $f=x^{2}+y^{2}$
解答 $(2x, 2y)$

问题	解答
$f=3x+2y$ ， $\partial f/\partial x$	$y$ 为常数 → 3
$f=3x+2y$ ， $\partial f/\partial y$	$x$ 为常数 → 2
$f=x^{2}y$ ， $\partial f/\partial x$	$y$ 为常数 → $2xy$
$f=x^{2}+y^{2}$ ， $\nabla f$	$(2x, 2y)$

按题型解题

类型 $x$
说明 $\frac{\partial f}{\partial x}$
求法 $y$

类型 $y$
说明 $\frac{\partial f}{\partial y}$
求法 $x$

类型 $梯度$
说明 $\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$
求法 $(a,b)$

类型	说明	求法
对 $x$ 偏导	$\frac{\partial f}{\partial x}$	把 $y$ 当常数只对 $x$ 求导。一次式则 $x$ 的系数， $x^2 y$ 则 $2xy$ 。
对 $y$ 偏导	$\frac{\partial f}{\partial y}$	把 $x$ 当常数只对 $y$ 求导。
梯度	$\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$	两个偏导按顺序组成向量。在点 $(a,b)$ 处代入 $x=a$ 、 $y=b$ 。

例（对 x 偏导）

f=3x+2y

时求

\frac{\partial f}{\partial x}

及在

(1,1)

处的值。

解

y

当常数则

\partial f/\partial x=3

。

(1,1)

处也为 3。→ 答 3

例（对 y 偏导）

f=3x+2y

时求

\frac{\partial f}{\partial y}

及在

(1,1)

处的值。

解

x

当常数则

\partial f/\partial y=2

。

(1,1)

处也为 2。→ 答 2

例（梯度）

f=x^2+y^2

时求

\nabla f

及在

(1,2)

处的梯度。

解

\partial f/\partial x=2x

，

\partial f/\partial y=2y

，故

\nabla f=(2x,2y)

。

(1,2)

处为

(2,4)

。→ 答 (2, 4) 或分量 2、4

什么是偏导数与梯度

对于多个变量的函数，只让一个变量变化、其余视为常数求导，就是偏导数。梯度是把偏导数排成的向量。核心公式一个：

\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})

。

直观例子：爬山时（高度

z

，平面坐标

x,y

），往东（

x

）走一步的高度变化和往北（

y

）走一步的高度变化不同。偏导数就是分别只算「只动

x

的斜率」和「只动

y

的斜率」。梯度

\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})

是把这两个数排成的向量，表示「往山顶最陡的方向」。

例：

f(x,y)=x^{2}+y^{2}

时，只对

x

求导（

y

当常数）得

2x

，只对

y

求导得

2y

。所以

\nabla f = (2x, 2y)

。

梯度指向函数值增加最快的方向。沿反方向移动则减少最快。梯度下降就是沿梯度的反方向更新参数。

数字例子：

f(x,y)=x+2y

时，

x

增加 1 则

f

增加 1（对

x

的偏导为 1），

y

增加 1 则

f

增加 2（对

y

的偏导为 2）。梯度为

(1, 2)

。在山地上表示

y

方向比

x

方向陡一倍，沿

(1,2)

方向爬得最快。

因为这就是深度学习模型的学习原理本身。AI 模型有数千万、数亿个参数（权重

w_1, w_2, ...

）。我们需要知道「该调哪个权重、怎么调才能减小误差」，但一次性考虑数亿个变量不现实。偏导数让我们拆开看：「其他权重不动、只动

w_1

时的影响」可以一个一个分析。

梯度是所有权重的修改说明书。一旦得到包含「

w_1

略增、

w_2

大减」等信息的向量

\nabla L

，AI 就能一次计算同时把数亿个权重朝正确方向更新。

情境 $减小误差$
用到什么 $L$

情境 $找最优方向$
用到什么 $把所有参数的偏导数排成梯度，沿其反方向移动，找到「误差谷」的谷底。$

情境 $高效大规模训练$
用到什么 $不看全量数据，只用小批（minibatch）估计梯度、快速更新，即 SGD（随机梯度下降）。$

情境 $多变量影响分析$
用到什么 $经济学里需求同时受价格和收入影响时，用偏导数分析「收入不变、只涨价格会怎样」等单因素影响。$

情境	用到什么
减小误差	对损失函数 $L$ 关于每个权重 $w$ 做偏导数（ $\frac{\partial L}{\partial w}$ ），判断该权重是不是误差的主要来源。
找最优方向	把所有参数的偏导数排成梯度，沿其反方向移动，找到「误差谷」的谷底。
高效大规模训练	不看全量数据，只用小批（minibatch）估计梯度、快速更新，即 SGD（随机梯度下降）。
多变量影响分析	经济学里需求同时受价格和收入影响时，用偏导数分析「收入不变、只涨价格会怎样」等单因素影响。

求偏导时，只把被求导的变量当变量，其余当常数。梯度就是按顺序把偏导数排成的向量。提示：

\frac{\partial f}{\partial x}

就是把

y

当常数只对

x

求导。

最简单例：

f=3x+2y

。只对

x

求导时把

y

当常数 →

\partial f/\partial x = 3

。只对

y

求导时把

x

当常数 →

\partial f/\partial y = 2

。所以

\nabla f = (3, 2)

。在点

(1,1)

处梯度也是

(3, 2)

。

从易到难的例题见下表。对单变量而言与 Ch06 导数公式相同。

问题 $f=3x+2y$
解答 $y$

问题 $f=3x+2y$
解答 $x$

问题 $f=x^{2}y$
解答 $y$

问题 $f=x^{2}+y^{2}$
解答 $(2x, 2y)$

问题	解答
$f=3x+2y$ ， $\partial f/\partial x$	$y$ 为常数 → 3
$f=3x+2y$ ， $\partial f/\partial y$	$x$ 为常数 → 2
$f=x^{2}y$ ， $\partial f/\partial x$	$y$ 为常数 → $2xy$
$f=x^{2}+y^{2}$ ， $\nabla f$	$(2x, 2y)$

按题型解题

类型 $x$
说明 $\frac{\partial f}{\partial x}$
求法 $y$

类型 $y$
说明 $\frac{\partial f}{\partial y}$
求法 $x$

类型 $梯度$
说明 $\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$
求法 $(a,b)$

类型	说明	求法
对 $x$ 偏导	$\frac{\partial f}{\partial x}$	把 $y$ 当常数只对 $x$ 求导。一次式则 $x$ 的系数， $x^2 y$ 则 $2xy$ 。
对 $y$ 偏导	$\frac{\partial f}{\partial y}$	把 $x$ 当常数只对 $y$ 求导。
梯度	$\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$	两个偏导按顺序组成向量。在点 $(a,b)$ 处代入 $x=a$ 、 $y=b$ 。

例（对 x 偏导）

f=3x+2y

时求

\frac{\partial f}{\partial x}

及在

(1,1)

处的值。

解

y

当常数则

\partial f/\partial x=3

。

(1,1)

处也为 3。→ 答 3

例（对 y 偏导）

f=3x+2y

时求

\frac{\partial f}{\partial y}

及在

(1,1)

处的值。

解

x

当常数则

\partial f/\partial y=2

。

(1,1)

处也为 2。→ 答 2

例（梯度）

f=x^2+y^2

时求

\nabla f

及在

(1,2)

处的梯度。

解

\partial f/\partial x=2x

，

\partial f/\partial y=2y

，故

\nabla f=(2x,2y)

。

(1,2)

处为

(2,4)

。→ 答 (2, 4) 或分量 2、4