Ch.10

海森矩阵：二阶微分与曲面的曲率

按章节的数学图示

选择章节后，下方图示会切换为该章节内容。可一览中级数学的脉络。

一阶导告诉你「哪边是下坡」，二阶（黑塞）告诉你「接下来会凹下去，还是一边升一边降（鞍点）」。请跟着下方动画理解。

黑塞是 二阶导数 构成的矩阵，所以下图中的「弯曲程度」就是黑塞所描述的内容。

碗形：只向下弯→极小点

鞍点：这边值↑上升，那边值↓下降

橙方向值上升 · 绿方向值下降

鞍点：既非极小也非极大

碗形只向下弯→此处为极小

倒扣的碗只向上弯→此处为极大

鞍点一方上升一方下降→既非极小也非极大

左：碗形（只向下弯）\to极小。倒扣的碗（只向上弯）\to极大。鞍点：一方上升一方下降\to既非极小也非极大。

黑塞矩阵是由标量函数的二阶偏导数构成的方阵，表示某点处曲面的曲率，用于判断极小、极大与鞍点，也是牛顿法、置信域方法的基础。

黑塞矩阵：读曲面的弯曲程度

黑塞矩阵是什么？ — 可以理解为：在你所站的点上，用数字写出「各个方向曲面弯了多少」的一张表。由函数二阶微分得到的值排成的方阵，且沿对角线左右对称，即 对称矩阵 。

想象闭着眼下山。脚底感觉到的「这边更陡」是一阶微分（梯度）。而「再迈一步，地面会凹下去还是平坦？」这种预感就是二阶微分，也就是黑塞。有了它就能避开悬崖，找到像碗底那样的真正最低点。

f

机器学习里，训练就是在找「误差最小的谷」。只靠梯度一点点往下走很慢。用黑塞知道曲率后，可以用 牛顿法 朝谷底大步跳，学习会快很多。

黑塞矩阵是由标量函数二阶偏导构成的对称矩阵，承载某点的曲率与极值性质。在梯度为零的点，特征值全正则为极小，全负则为极大，有正有负则为鞍点。在机器学习中，它是损失最小点搜索与验证、牛顿法、置信域、拟牛顿等二阶优化的基础。

往下走时会遇到梯度为 0 的平坦处。那不一定就是真正的谷底，可能是鞍点——暂时平坦，但一边升一边降。这时看黑塞的 特征值 就能区分：是真最小点还是鞍点。变量很多（如 AI）时，不踩进这种「假谷底」非常重要。

窄路小步、平地大步才又快又稳。黑塞告诉你「各方向有多陡」，所以能自动调好步长（学习率），少走冤枉路、高效下降。

\mathbf{x}_{k+1} = \mathbf{x}_k - \mathbf{H}^{-1} \nabla f(\mathbf{x}_k)

变量一多，精确算黑塞成本太大。实务中更多用 拟牛顿法 （如 BFGS）：不完整算黑塞，只用至今的梯度信息去「猜个大概形状」来用。

下表只整理解题所需的 公式与符号含义 。表下方的 解题示例 中有完整解题过程，请对照参考。

H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j}

문제

\lambda_1=2

1 / 10

黑塞矩阵：读曲面的弯曲程度

黑塞矩阵是什么？ — 可以理解为：在你所站的点上，用数字写出「各个方向曲面弯了多少」的一张表。由函数二阶微分得到的值排成的方阵，且沿对角线左右对称，即 对称矩阵 。

想象闭着眼下山。脚底感觉到的「这边更陡」是一阶微分（梯度）。而「再迈一步，地面会凹下去还是平坦？」这种预感就是二阶微分，也就是黑塞。有了它就能避开悬崖，找到像碗底那样的真正最低点。

f

机器学习里，训练就是在找「误差最小的谷」。只靠梯度一点点往下走很慢。用黑塞知道曲率后，可以用 牛顿法 朝谷底大步跳，学习会快很多。

黑塞矩阵是由标量函数二阶偏导构成的对称矩阵，承载某点的曲率与极值性质。在梯度为零的点，特征值全正则为极小，全负则为极大，有正有负则为鞍点。在机器学习中，它是损失最小点搜索与验证、牛顿法、置信域、拟牛顿等二阶优化的基础。

往下走时会遇到梯度为 0 的平坦处。那不一定就是真正的谷底，可能是鞍点——暂时平坦，但一边升一边降。这时看黑塞的 特征值 就能区分：是真最小点还是鞍点。变量很多（如 AI）时，不踩进这种「假谷底」非常重要。

窄路小步、平地大步才又快又稳。黑塞告诉你「各方向有多陡」，所以能自动调好步长（学习率），少走冤枉路、高效下降。

\mathbf{x}_{k+1} = \mathbf{x}_k - \mathbf{H}^{-1} \nabla f(\mathbf{x}_k)

变量一多，精确算黑塞成本太大。实务中更多用 拟牛顿法 （如 BFGS）：不完整算黑塞，只用至今的梯度信息去「猜个大概形状」来用。

下表只整理解题所需的 公式与符号含义 。表下方的 解题示例 中有完整解题过程，请对照参考。

H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j}

문제

\lambda_1=2

1 / 10

公式	符号含义
$H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j}$	$H_{ij}$ ＝表中 $(i,j)$ 格中的数，可理解为「先对 $x_i$ 再对 $x_j$ 各求一次导」。 $f$ 为函数， $x_i$ 、 $x_j$ 为变量（轴）编号。求导顺序可交换，故 $H_{ij}=H_{ji}$ ，表对称。
$n^2$ （元素总数）	$n$ ＝变量个数。 $n$ 个变量时黑塞为 $n \times n$ ，故共有 $n^2$ 个元素。例：2 变量→4 个，3 变量→9 个。
$\frac{n(n+1)}{2}$ （独立元素）	$n$ ＝变量个数。对称故只数上三角，个数为 $1+2+\cdots+n = n(n+1)/2$ 。例：2 变量→3 个，3 变量→6 个。
$n$ （行/列数）	$n$ ＝变量个数。黑塞为 $n \times n$ ，故「几行？几列？」均为 $n$ 。
特征值判定	$\lambda$ ＝黑塞的特征值（该点各方向曲率）。全正→像碗一样只向下弯，极小；全负→只向上弯，极大；有正有负→一方升一方降，鞍点。
$\mathbf{x}_{k+1} = \mathbf{x}_k - \mathbf{H}^{-1} \nabla f(\mathbf{x}_k)$	$\mathbf{x}_k$ ＝当前点， $\mathbf{x}_{k+1}$ ＝下一步点。 $\mathbf{H}$ ＝该点黑塞（曲率表）， $\mathbf{H}^{-1}$ ＝其逆。 $\nabla f(\mathbf{x}_k)$ ＝该点梯度。即「看梯度与曲率，一步跳向谷底」的公式。
$x_1 = x_0 - \frac{f^{\prime}(x_0)}{f^{\prime\prime}(x_0)}$	$x_0$ ＝当前位置， $x_1$ ＝下一位置。 $f^{\prime}(x_0)$ ＝该点斜率（一阶导）， $f^{\prime\prime}(x_0)$ ＝二阶导（一维时相当于黑塞）。 $f(x)=ax^2+bx+c$ 时 $f^{\prime\prime}=2a$ 为常数。
$f^{\prime\prime}(x)=2a$ （ $f(x)=ax^2+bx+c$ ）	$f^{\prime\prime}$ ＝二阶导数。 $a$ 为 $x^2$ 的系数。二次式求两次导后 $x$ 消失，只剩常数 $2a$ 。
$\nabla f = \mathbf{0}$ （驻点）	$\nabla f$ ＝梯度（各变量方向一阶导组成的向量）。 $\mathbf{0}$ ＝零向量（「无梯度」）。梯度为 0 的点是极小·极大·鞍点的候选，再用黑塞特征值判断是哪一种。

公式	符号含义
$H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j}$	$H_{ij}$ ＝表中 $(i,j)$ 格中的数，可理解为「先对 $x_i$ 再对 $x_j$ 各求一次导」。 $f$ 为函数， $x_i$ 、 $x_j$ 为变量（轴）编号。求导顺序可交换，故 $H_{ij}=H_{ji}$ ，表对称。
$n^2$ （元素总数）	$n$ ＝变量个数。 $n$ 个变量时黑塞为 $n \times n$ ，故共有 $n^2$ 个元素。例：2 变量→4 个，3 变量→9 个。
$\frac{n(n+1)}{2}$ （独立元素）	$n$ ＝变量个数。对称故只数上三角，个数为 $1+2+\cdots+n = n(n+1)/2$ 。例：2 变量→3 个，3 变量→6 个。
$n$ （行/列数）	$n$ ＝变量个数。黑塞为 $n \times n$ ，故「几行？几列？」均为 $n$ 。
特征值判定	$\lambda$ ＝黑塞的特征值（该点各方向曲率）。全正→像碗一样只向下弯，极小；全负→只向上弯，极大；有正有负→一方升一方降，鞍点。
$\mathbf{x}_{k+1} = \mathbf{x}_k - \mathbf{H}^{-1} \nabla f(\mathbf{x}_k)$	$\mathbf{x}_k$ ＝当前点， $\mathbf{x}_{k+1}$ ＝下一步点。 $\mathbf{H}$ ＝该点黑塞（曲率表）， $\mathbf{H}^{-1}$ ＝其逆。 $\nabla f(\mathbf{x}_k)$ ＝该点梯度。即「看梯度与曲率，一步跳向谷底」的公式。
$x_1 = x_0 - \frac{f^{\prime}(x_0)}{f^{\prime\prime}(x_0)}$	$x_0$ ＝当前位置， $x_1$ ＝下一位置。 $f^{\prime}(x_0)$ ＝该点斜率（一阶导）， $f^{\prime\prime}(x_0)$ ＝二阶导（一维时相当于黑塞）。 $f(x)=ax^2+bx+c$ 时 $f^{\prime\prime}=2a$ 为常数。
$f^{\prime\prime}(x)=2a$ （ $f(x)=ax^2+bx+c$ ）	$f^{\prime\prime}$ ＝二阶导数。 $a$ 为 $x^2$ 的系数。二次式求两次导后 $x$ 消失，只剩常数 $2a$ 。
$\nabla f = \mathbf{0}$ （驻点）	$\nabla f$ ＝梯度（各变量方向一阶导组成的向量）。 $\mathbf{0}$ ＝零向量（「无梯度」）。梯度为 0 的点是极小·极大·鞍点的候选，再用黑塞特征值判断是哪一种。