Chapter 11
Softmax(转为概率)
将向量变为(0,1)内且和为1的概率分布的函数。
按章节的深度学习图示
每完成一章,下方图示会逐步填满。这是目前的结构。
3做幂得 27(3的3次方)
27/31=27 ÷ 31
深度学习中的 Softmax
Softmax 是一个把多个分数(数值)转换成概率的函数。所有值变为 0 到 1 之间,且加起来恰好等于 1。因此可以当概率来读。
公式为 。由于用了 e 的幂次(e ≈ 2.718),最大的分数会被显著放大,其余的相对缩小。第一名和第二名的差距会更加悬殊。
例如:分数 [3, 1, 0] → e³≈20,e¹≈2.7,e⁰=1 → 总和 ≈ 23.7 → 概率 ≈ [0.84, 0.11, 0.04]。分数 3 本来只是 1 的 3 倍,概率却变成了约 8 倍!
Softmax 用在几乎所有分类模型的最后一层。「这张照片 70% 是狗、25% 是猫、5% 是鸟」——让你看到各类别的概率以及模型有多确信。
与交叉熵损失搭配训练时,梯度推导干净又稳定。模型自然会学到「提高正确类别的概率、降低其余类别的概率」。
Softmax「所有值为正且和为 1」的性质恰好符合概率分布的定义。从统计学和理论上看,它都是把分数转为概率的最自然的方式。
图像分类:模型最后一层输出分数(logits),如 [5.2, 2.1, 0.8, ...]。Softmax 将其转为 [0.70, 0.25, 0.05, ...]——各类别的概率。概率最高的类别就是最终答案。
聊天机器人与翻译:ChatGPT 选择下一个词时,对词表中所有词(数万个!)打分,经 Softmax 转为概率后按概率采样。高概率的词常被选中,但偶尔也会选低概率的词增加多样性。
注意力机制:在翻译中,「关注哪些输入词」的相关度分数经 Softmax 变为概率(权重)。这些权重用来做加权平均,突出最相关的部分。
计算顺序:① 算 (logits)→ ② 算 (题目用 )→ ③ 算 (总和)= 所有 相加 → ④ (各项除以总和)。按此顺序来。
填空策略:空白在 Y 中就算「该 」。空白在 中就算「」。空白在 Z 中就从 反推。空白在 中就把所有 加起来。
验算:算完后检查所有 Y 值是否在 0 到 1 之间且和为 1。如果不是,说明计算有误。另外确认题目用的是 还是 。
Softmax 把数变成 0~1 之间且和为 1。先算 ,再算 ,再除以总和 就得到类似概率的输出。
分数() → → 除以和 → 概率()
多分类最后一层常用。
例:一步计算过程
题目
按 , , 顺序计算后填入空白(?)处。
本题中为便于计算取 e = 3,即 。(例:Z=1 → 3,Z=2 → 9)
分数() → → 除以和() → 概率()