Chapter 07

链式法则：拆解复合函数，反向传播的核心

对「函数套函数」求导时，用 外导数 \times 内导数 相乘即可。这是反向传播的核心。

按章节的数学图示

选择章节后，下方图示会切换为该章节内容。可一览基础数学的脉络。

复合函数是 $x$ → 内层 → 外层 → $y$ 的链条。外导数 × 内导数相乘就得到总导数。

用例子看计算顺序（一次强调一步）

1.例：与上图一致，设

u = g(x) = 2x+1

，

y = f(u) = u^2

，则

y = (2x+1)^2

。对

x

求导。

2.① 内层导数（左图）：

u = g(x) = 2x+1

对

x

求导 →

2

3.② 外层导数（右图）：

y = f(u) = u^2

对

u

求导 →

2u = 2(2x+1)

4.③ 相乘：

2 \times 2(2x+1) = 4(2x+1)

→ 答案

像点沿链条移动一样，变化率会乘在一起传下去。反向传播也是这样的乘法结构。

什么是链式法则

链式法则（Chain Rule）是对「函数套函数」的复合函数求导的规则。像剥洋葱一样：先对外层函数求导（ $f^{\prime}$ ），再乘上内层函数的导数（ $g'$ ）。公式为

\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}

，就像求啮合齿轮的传动比。

直观例子：「你」(

x

) 推「朋友」(

u

)，朋友推「小车」(

y

)。你若用 2 倍力推朋友，朋友用 3 倍力推小车，小车受到的力就是你推力的

2 \times 3 = 6

倍。这样把各段变化率用乘法连起来，就是链式法则。

核心公式：

\{f(g(x))\}' = f^{\prime}(g(x)) \times g'(x)

。记住：「外导数 × 内导数」。

步骤 $1$
做什么 $区分内层与外层$
例： $y=(2x+1)^2$ $u=2x+1$

步骤 $2$
做什么 $外层导数$
例： $y=(2x+1)^2$ $u^2$

步骤 $3$
做什么 $内层导数$
例： $y=(2x+1)^2$ $2x+1$

步骤 $4$
做什么 $相乘$
例： $y=(2x+1)^2$ $2u \times 2 = 2(2x+1) \times 2 = 4(2x+1)$

步骤	做什么	例： $y=(2x+1)^2$
1	区分内层与外层	内层 $u=2x+1$ ，外层 $y=u^2$
2	外层导数	$u^2$ 求导得 $2u$ （此时 $u$ 保持不变）
3	内层导数	内层 $2x+1$ 对 $x$ 求导得 $2$
4	相乘	$2u \times 2 = 2(2x+1) \times 2 = 4(2x+1)$

代表公式：

\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}

或

(f \circ g)'(x) = f^{\prime}(g(x)) \cdot g'(x)

。如上图，

x

→ 内层 → 外层 →

y

连成一条链，每段的导数乘起来即可。若内层本身也是复合函数，在该处同样用外导数×内导数，重复即可。

为什么是乘而不是加？因为是比率（Rate）。时速 100 公里的车（

v

）和 1 美元兑 1300 元的汇率（

r

）相加没有意义。要算变化的放大或衰减，必须相乘。

用数字验证：

y=(2x+1)^2

在

x=1

时的变化率，按公式得

4(2(1)+1)=12

。若

x

从 1 变到 1.01（差 0.01），

y

从 9 变到约 9.1204（差约 0.12）。0.01 的 12 倍是 0.12，所以变化率 12 正确。

深度学习模型是由几十、几百个函数层层叠成的巨大复合函数（

y = f_n(...f_2(f_1(x))...)

）。我们要知道「改变最初输入或中间权重（

w

）时，最终误差（

L

）如何变化」，这离不开链式法则。

反向传播（Backpropagation）的本质就是链式法则。把输出层产生的误差往输入层方向反向传播时，各层的导数值（梯度）会不断相乘传递。没有这一步，深度网络就无法训练。

所以 AI 学习就是「用链式法则把导数值乘起来传递」的过程。层越深，这个乘法重复越多；小于 1 的数（如 0.5）连乘多次会趋近 0。梯度这样消失的现象叫梯度消失（Vanishing Gradient），曾是深层网络难以训练的原因之一。ReLU、跳跃连接等技术缓解了这一问题。

用于分析复杂因果关系。若 A 影响 B、B 影响 C，则 A 对 C 的影响等于各段影响相乘。

情境 $成本 \to 产量 \to 时间$
求什么 $时间对成本的影响$
链式法则（总变化率） $\times$

情境 $体积 \to 半径 \to 时间$
求什么 $给气球充气时体积的变化率$
链式法则（总变化率） $\times$

情境 $误差 \to 输出 \to 权重$
求什么 $AI 学习：权重更新量$
链式法则（总变化率） $\times$

情境	求什么	链式法则（总变化率）
成本 → 产量 → 时间	时间对成本的影响	(成本/产量) $\times$ (产量/时间)
体积 → 半径 → 时间	给气球充气时体积的变化率	(体积/半径) $\times$ (半径/时间)
误差 → 输出 → 权重	AI 学习：权重更新量	(误差/输出) $\times$ (输出/权重)

自动微分（Automatic Differentiation）：PyTorch、TensorFlow 等框架在调用 `loss.backward()` 时会自动求导。内部会构建计算图，在每个节点应用链式法则计算并相乘梯度，瞬间完成。

复合函数求导时，把内层当成一块，用外层的导数乘以内层的导数即可。内层本身也是复合的话，就在那里再套一次链式法则。提示：先设内层=某式，只对外层求导，再乘上内层对

x

的导数即可。

最简单例：

y=(3x)^2

。内层

u=3x

→ 求导得

3

。外层

u^2

→ 求导得

2u=2\cdot 3x

。相乘得

3 \times 2\cdot 3x = 18x

。

x=2

时斜率为

36

。

从易到难的各种例题见下表。每行用「内导数×外导数」即得答案。

题目 $y=(3x)^2$
解答 $u=3x$

题目 $y=\sqrt{x+1}$
解答 $u=x+1$

题目 $y=(2x+1)^5$
解答 $2$

题目 $y=e^{x^2}$
解答 $2x$

题目 $y=\sin(2x)$
解答 $u=2x$

题目 $y=e^{3x}$
解答 $3$

题目 $y=\ln(\sin x)$
解答 $\cos x$

题目	解答
简单例 $y=(3x)^2$	内 $u=3x$ → 内导数 $3$ ，外 $u^2$ → 外导数 $2u$ ；乘积 $2\cdot 3x\cdot 3=18x$
简单例 $y=\sqrt{x+1}$	内 $u=x+1$ → 内导数 $1$ ，外 $\sqrt{u}$ → 外导数 $1/(2\sqrt{u})$ ；乘积 $1/(2\sqrt{x+1})$
例 $y=(2x+1)^5$	内导数 $2$ ，外导数 $5(2x+1)^4$ → 乘积 $10(2x+1)^4$
例 $y=e^{x^2}$	内导数 $2x$ ，外导数 $e^{x^2}$ → 乘积 $2x\,e^{x^2}$
例 $y=\sin(2x)$	内 $u=2x$ → 内导数 $2$ ，外 $\sin u$ → 外导数 $\cos u$ ；乘积 $2\cos(2x)$
例 $y=e^{3x}$	内导数 $3$ ，外导数 $e^{3x}$ → 乘积 $3e^{3x}$
例 $y=\ln(\sin x)$	内导数 $\cos x$ ，外导数 $1/\sin x$ → 乘积 $\cos x/\sin x=\cot x$

按题型解题

类型 $幂（内层一次）$
说明 $(ax+b)^n$
求法 $a$

类型 $指数（内层）$
说明 $e^{g(x)}$
求法 $g'(x)$

类型 $三角（内层）$
说明 $\sin(ax)$
求法 $a$

类型 $根号$
说明 $\sqrt{g(x)}$
求法 $g'(x)$

类型 $对数$
说明 $\ln(g(x))$
求法 $g'(x)$

类型 $二次式在内$
说明 $(x^2+\cdots)^n$
求法 $x$

类型	说明	求法
幂（内层一次）	$(ax+b)^n$	内导数 $a$ ，外导数 $n(ax+b)^{n-1}$ → 乘积 $a\cdot n(ax+b)^{n-1}$ 。
指数（内层）	$e^{g(x)}$	内导数 $g'(x)$ ，外导数 $e^{g(x)}$ → 乘积 $g'(x)\,e^{g(x)}$ 。
三角（内层）	$\sin(ax)$ 、 $\cos(ax)$ 等	内导数 $a$ ，外导数 $\cos(ax)$ 或 $-\sin(ax)$ 等 → 相乘。
根号	$\sqrt{g(x)}$	内导数 $g'(x)$ ，外导数 $1/(2\sqrt{g(x)})$ → 相乘。
对数	$\ln(g(x))$	内导数 $g'(x)$ ，外导数 $1/g(x)$ → 相乘得 $g'(x)/g(x)$ 。
二次式在内	$(x^2+\cdots)^n$ 等	内层再对 $x$ 求导，与外层导数相乘。

例（幂）

y=(2x+1)^5

的导函数。

解

内层

u=2x+1

导数

2

，外层

u^5

导数

5u^4

。乘积

2\cdot 5(2x+1)^4=10(2x+1)^4

。

例（指数）

y=e^{x^2}

的导函数。

解

内层

x^2

导数

2x

，外层

e^u

导数

e^{x^2}

。乘积

2x\,e^{x^2}

。

例（三角）

y=\sin(2x)

的导函数。

解

内层

2x

导数

2

，外层

\sin u

导数

\cos(2x)

。乘积

2\cos(2x)

。

例（根号）

y=\sqrt{x+1}

的导函数。

解

内层

x+1

导数

1

，外层

\sqrt{u}

导数

1/(2\sqrt{x+1})

。乘积

1/(2\sqrt{x+1})

。

什么是链式法则

\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}

，就像求啮合齿轮的传动比。

直观例子：「你」(

x

) 推「朋友」(

u

)，朋友推「小车」(

y

)。你若用 2 倍力推朋友，朋友用 3 倍力推小车，小车受到的力就是你推力的

2 \times 3 = 6

倍。这样把各段变化率用乘法连起来，就是链式法则。

核心公式：

\{f(g(x))\}' = f^{\prime}(g(x)) \times g'(x)

。记住：「外导数 × 内导数」。

步骤 $1$
做什么 $区分内层与外层$
例： $y=(2x+1)^2$ $u=2x+1$

步骤 $2$
做什么 $外层导数$
例： $y=(2x+1)^2$ $u^2$

步骤 $3$
做什么 $内层导数$
例： $y=(2x+1)^2$ $2x+1$

步骤 $4$
做什么 $相乘$
例： $y=(2x+1)^2$ $2u \times 2 = 2(2x+1) \times 2 = 4(2x+1)$

步骤	做什么	例： $y=(2x+1)^2$
1	区分内层与外层	内层 $u=2x+1$ ，外层 $y=u^2$
2	外层导数	$u^2$ 求导得 $2u$ （此时 $u$ 保持不变）
3	内层导数	内层 $2x+1$ 对 $x$ 求导得 $2$
4	相乘	$2u \times 2 = 2(2x+1) \times 2 = 4(2x+1)$

代表公式：

\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}

或

(f \circ g)'(x) = f^{\prime}(g(x)) \cdot g'(x)

。如上图，

x

→ 内层 → 外层 →

y

连成一条链，每段的导数乘起来即可。若内层本身也是复合函数，在该处同样用外导数×内导数，重复即可。

为什么是乘而不是加？因为是比率（Rate）。时速 100 公里的车（

v

）和 1 美元兑 1300 元的汇率（

r

）相加没有意义。要算变化的放大或衰减，必须相乘。

用数字验证：

y=(2x+1)^2

在

x=1

时的变化率，按公式得

4(2(1)+1)=12

。若

x

从 1 变到 1.01（差 0.01），

y

从 9 变到约 9.1204（差约 0.12）。0.01 的 12 倍是 0.12，所以变化率 12 正确。

深度学习模型是由几十、几百个函数层层叠成的巨大复合函数（

y = f_n(...f_2(f_1(x))...)

）。我们要知道「改变最初输入或中间权重（

w

）时，最终误差（

L

）如何变化」，这离不开链式法则。

用于分析复杂因果关系。若 A 影响 B、B 影响 C，则 A 对 C 的影响等于各段影响相乘。

情境 $成本 \to 产量 \to 时间$
求什么 $时间对成本的影响$
链式法则（总变化率） $\times$

情境 $体积 \to 半径 \to 时间$
求什么 $给气球充气时体积的变化率$
链式法则（总变化率） $\times$

情境 $误差 \to 输出 \to 权重$
求什么 $AI 学习：权重更新量$
链式法则（总变化率） $\times$

情境	求什么	链式法则（总变化率）
成本 → 产量 → 时间	时间对成本的影响	(成本/产量) $\times$ (产量/时间)
体积 → 半径 → 时间	给气球充气时体积的变化率	(体积/半径) $\times$ (半径/时间)
误差 → 输出 → 权重	AI 学习：权重更新量	(误差/输出) $\times$ (输出/权重)

x

的导数即可。

最简单例：

y=(3x)^2

。内层

u=3x

→ 求导得

3

。外层

u^2

→ 求导得

2u=2\cdot 3x

。相乘得

3 \times 2\cdot 3x = 18x

。

x=2

时斜率为

36

。

从易到难的各种例题见下表。每行用「内导数×外导数」即得答案。

题目 $y=(3x)^2$
解答 $u=3x$

题目 $y=\sqrt{x+1}$
解答 $u=x+1$

题目 $y=(2x+1)^5$
解答 $2$

题目 $y=e^{x^2}$
解答 $2x$

题目 $y=\sin(2x)$
解答 $u=2x$

题目 $y=e^{3x}$
解答 $3$

题目 $y=\ln(\sin x)$
解答 $\cos x$

题目	解答
简单例 $y=(3x)^2$	内 $u=3x$ → 内导数 $3$ ，外 $u^2$ → 外导数 $2u$ ；乘积 $2\cdot 3x\cdot 3=18x$
简单例 $y=\sqrt{x+1}$	内 $u=x+1$ → 内导数 $1$ ，外 $\sqrt{u}$ → 外导数 $1/(2\sqrt{u})$ ；乘积 $1/(2\sqrt{x+1})$
例 $y=(2x+1)^5$	内导数 $2$ ，外导数 $5(2x+1)^4$ → 乘积 $10(2x+1)^4$
例 $y=e^{x^2}$	内导数 $2x$ ，外导数 $e^{x^2}$ → 乘积 $2x\,e^{x^2}$
例 $y=\sin(2x)$	内 $u=2x$ → 内导数 $2$ ，外 $\sin u$ → 外导数 $\cos u$ ；乘积 $2\cos(2x)$
例 $y=e^{3x}$	内导数 $3$ ，外导数 $e^{3x}$ → 乘积 $3e^{3x}$
例 $y=\ln(\sin x)$	内导数 $\cos x$ ，外导数 $1/\sin x$ → 乘积 $\cos x/\sin x=\cot x$

按题型解题

类型 $幂（内层一次）$
说明 $(ax+b)^n$
求法 $a$

类型 $指数（内层）$
说明 $e^{g(x)}$
求法 $g'(x)$

类型 $三角（内层）$
说明 $\sin(ax)$
求法 $a$

类型 $根号$
说明 $\sqrt{g(x)}$
求法 $g'(x)$

类型 $对数$
说明 $\ln(g(x))$
求法 $g'(x)$

类型 $二次式在内$
说明 $(x^2+\cdots)^n$
求法 $x$

类型	说明	求法
幂（内层一次）	$(ax+b)^n$	内导数 $a$ ，外导数 $n(ax+b)^{n-1}$ → 乘积 $a\cdot n(ax+b)^{n-1}$ 。
指数（内层）	$e^{g(x)}$	内导数 $g'(x)$ ，外导数 $e^{g(x)}$ → 乘积 $g'(x)\,e^{g(x)}$ 。
三角（内层）	$\sin(ax)$ 、 $\cos(ax)$ 等	内导数 $a$ ，外导数 $\cos(ax)$ 或 $-\sin(ax)$ 等 → 相乘。
根号	$\sqrt{g(x)}$	内导数 $g'(x)$ ，外导数 $1/(2\sqrt{g(x)})$ → 相乘。
对数	$\ln(g(x))$	内导数 $g'(x)$ ，外导数 $1/g(x)$ → 相乘得 $g'(x)/g(x)$ 。
二次式在内	$(x^2+\cdots)^n$ 等	内层再对 $x$ 求导，与外层导数相乘。

例（幂）

y=(2x+1)^5

的导函数。

解

内层

u=2x+1

导数

2

，外层

u^5

导数

5u^4

。乘积

2\cdot 5(2x+1)^4=10(2x+1)^4

。

例（指数）

y=e^{x^2}

的导函数。

解

内层

x^2

导数

2x

，外层

e^u

导数

e^{x^2}

。乘积

2x\,e^{x^2}

。

例（三角）

y=\sin(2x)

的导函数。

解

内层

2x

导数

2

，外层

\sin u

导数

\cos(2x)

。乘积

2\cos(2x)

。

例（根号）

y=\sqrt{x+1}

的导函数。

解

内层

x+1

导数

1

，外层

\sqrt{u}

导数

1/(2\sqrt{x+1})

。乘积

1/(2\sqrt{x+1})

。