Ch.01

Transformer 1：自注意力与并行化

Transformer 的核心是 自注意力（Self-Attention） 。它不再像 RNN 那样按顺序逐个处理 token，而是让句子中的所有 token 同时相互参考，从而汇聚重要信息。本章将用初学者友好的方式讲解自注意力：从 Query / Key / Value、缩放点积注意力，到多头的数学意义，并把这些内容与翻译、摘要、搜索以及医疗文本分析等真实应用串联起来学习。

Q=XW_Q

自注意力是一种操作：每个 token 关注所有 token，并重建上下文。

概念结构：Q/K/V → 分数 → 归一化 → 加权求和

弱引用中等引用强引用

Transformer 1：一眼看懂自注意力

X

n

h

自注意力的结构是：每个 token 会同时参考句子中的所有 token 来理解上下文，因此它是 Transformer 性能的重要基础。它通过 Query、Key、Value 将信息拆开计算相似度，并用 softmax 把重要性像概率一样正则化后进行加权求和，把需要的信息汇聚起来。由于这种机制，远距离的词关系也能一次性被反映出来，所以在长上下文问题上尤其强。多头会降低单一视角带来的局限，并通过融合多个视角提升预测稳定性。最终，理解自注意力就是理解“如何有选择地收集信息”，而这会直接连接到翻译、摘要、分类、搜索以及医疗文本分析等广泛的机器学习任务中。

A=\mathrm{softmax}(QK^T/\sqrt{d_k})

Transformer 1：一眼看懂自注意力

概念说明

自注意力会让句子里的每个单词（token）同时关注所有其他单词，并为理解当前 token 决定“该参考哪些词、参考多少”的权重。比如在“去了银行”里判断“银行”到底是金融机构还是河岸时，自注意力的作用就是把周围词的整体信息一起纳入判断。

直观理解

把它想象成会议：当有人发言时，所有参与者都同时举手投票——“我的发言在当前语境里有多重要”。发言者会根据这些投票结果放大重要意见、压缩不重要意见，最终得到判断。自注意力也用同样的思路工作：用权重来决定哪些信息更关键。

数学说明

把输入嵌入矩阵记为

X

，并变换得到

Q=XW_Q

K=XW_K

V=XW_V

。其中

W_Q, W_K, W_V

是可学习的权重矩阵。注意力分数由

QK^T

计算，并为了维度校正除以

\sqrt{d_k}

，再经过 softmax 得到概率权重

A=\mathrm{softmax}(QK^T/\sqrt{d_k})

。最终输出是

AV

。各符号含义如下：

d_k

是 Key 向量维度，

A

是表示“该参考哪些 token、参考多少”的比例权重矩阵。

实际机器学习应用示例

在垃圾邮件分类中，往往需要看句子整体模式，而不是只看某一个词。自注意力可以同时捕捉“免费”和“点击”这种词之间的关系，从而更准确地判断是否为垃圾邮件。在医疗诊断文本分类中，它能同时建模症状、检查结果以及否定表达（如“不是”）之间的交互，从而降低误诊风险。