Chapter 11

Softmax（转为概率）

将向量变为（0,1）内且和为1的概率分布的函数。

按章节的深度学习图示

每完成一章，下方图示会逐步填满。这是目前的结构。

Softmax分数→概率（例：e≈3）

分数

→

中间

3的幂

3³=27

3¹=3

3⁰=1

→

概率

27/31

3/31

1/31

除以和

27÷31=27/31

3÷31=3/31

1÷31=1/31

3做幂得 27（3的3次方）

27/31=27 ÷ 31

深度学习中的 Softmax

Softmax 是一个把多个分数（数值）转换成概率的函数。所有值变为 0 到 1 之间，且加起来恰好等于 1。因此可以当概率来读。

公式为 $\mathrm{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}$ 。由于用了 e 的幂次（e ≈ 2.718），最大的分数会被显著放大，其余的相对缩小。第一名和第二名的差距会更加悬殊。

例如：分数 [3, 1, 0] → e³≈20，e¹≈2.7，e⁰=1 → 总和 ≈ 23.7 → 概率 ≈ [0.84, 0.11, 0.04]。分数 3 本来只是 1 的 3 倍，概率却变成了约 8 倍！

Softmax 用在几乎所有分类模型的最后一层。「这张照片 70% 是狗、25% 是猫、5% 是鸟」——让你看到各类别的概率以及模型有多确信。

与交叉熵损失搭配训练时，梯度推导干净又稳定。模型自然会学到「提高正确类别的概率、降低其余类别的概率」。

Softmax「所有值为正且和为 1」的性质恰好符合概率分布的定义。从统计学和理论上看，它都是把分数转为概率的最自然的方式。

图像分类：模型最后一层输出分数（logits），如 [5.2, 2.1, 0.8, ...]。Softmax 将其转为 [0.70, 0.25, 0.05, ...]——各类别的概率。概率最高的类别就是最终答案。

聊天机器人与翻译：ChatGPT 选择下一个词时，对词表中所有词（数万个！）打分，经 Softmax 转为概率后按概率采样。高概率的词常被选中，但偶尔也会选低概率的词增加多样性。

注意力机制：在翻译中，「关注哪些输入词」的相关度分数经 Softmax 变为概率（权重）。这些权重用来做加权平均，突出最相关的部分。

计算顺序：① 算 $Z = W \cdot X + b$ （logits）→ ② 算 $e^Z$ （题目用 $e \approx 3$ ）→ ③ 算 $\Sigma$ （总和）= 所有 $e^Z$ 相加 → ④ $Y = \frac{e^Z}{\Sigma}$ （各项除以总和）。按此顺序来。

填空策略：空白在 Y 中就算「该 $e^Z \div \Sigma$ 」。空白在 $e^Z$ 中就算「 $Y \times \Sigma$ 」。空白在 Z 中就从 $e^Z$ 反推。空白在 $\Sigma$ 中就把所有 $e^Z$ 加起来。

验算：算完后检查所有 Y 值是否在 0 到 1 之间且和为 1。如果不是，说明计算有误。另外确认题目用的是 $e \approx 3$ 还是 $e \approx 2.718$ 。

Softmax 把数变成 0～1 之间且和为 1。先算 $Z = W \cdot X + b$ ，再算 $e^Z$ ，再除以总和 $\Sigma$ 就得到类似概率的输出。

分数( $Z$ ) → $3^Z$ → 除以和 → 概率( $Y$ )

X

多分类最后一层常用。

Z_1 = 1 \cdot 1 + 1 \cdot 1 + 1 = 3

题目

按 $Z = W \cdot X + b$ , $e^Z \;\; (e \approx 3)$ , $Y = \frac{e^Z}{\Sigma}$ 顺序计算后填入空白(?)处。

本题中为便于计算取 e = 3，即 $e^Z = 3^Z$ 。（例：Z=1 → 3，Z=2 → 9）

分数( $Z$ ) → $3^Z$ → 除以和( $\Sigma$ ) → 概率( $Y$ )

-1

→

e^Z

→

\Sigma

→

1/2

概率

0.5

1 / 20