Ch.02

Transformer：位置编码与前馈

自注意力擅长捕捉 词与词之间的关系 ，但对 词在句中的位置 未必充分显式。因此 Transformer 在词嵌入上 加上位置编码（PE） ，让模型知道 第几个词 。在块内混合关系之后， 前馈（FFN） 层再对每个词的表示做深层变换。本章用易懂的方式说明正弦-余弦 PE、与可学习位置嵌入的差异，以及 FFN 作为 逐词 MLP 的作用。

公式怎么读

h_t^{(0)} = x_t + PE(t)

上

从左往右读，每格把 意思 和 第几个编成数的信息（PE） 加在一起。

下

路之间 不混合 ，四路各走 同一个计算块 （同一套权重、同一套运算）一次。

论文里把这种计算块称为 FFN 。

① 做输入 →（中间省略）→ ② 每路同一 FFN

同一块里先 ① 再 ② ，按顺序进行。

同一块内的顺序

① 先把 意思 + 顺序(PE) 加成 输入 。（中间的注意力等本图省略）

② 再用 同一 FFN 每路各走一次。 路之间不混合 。

号意思顺序值计算块(FFN)

Transformer：位置编码与前馈层

p

为何重要

d_{ff}

如何使用

d_{ff}

小结

自注意力再强，也需要把 每个词在序列中的位置 可靠地告诉模型。正弦-余弦位置编码用多种频率叠加，在嵌入上形成可区分的位置模式；随后注意力调节词间关系，FFN 则在每个位置上重复同一非线性变换以细化表示。先扩后缩的 FFN 结构，是翻译、摘要、分类与生成等任务里在质量与算力之间的常用旋钮。

解题说明

h=x+PE(pos)

Transformer：位置编码与前馈层

1. 概念：为何需要位置编码

自注意力会看全句，但若只有词嵌入的排列，首尾等顺序信息可能不足。位置编码为每个位置

p

构造长度

d_{model}

的向量

PE(p)

，通过相加告诉模型顺序。

直觉： 像影院座位需要行列号；PE 给每个词元贴上位置标签。

数学： 常写

h_t^{(0)} = x_t + PE(t)

。

应用： 翻译、摘要、问答中语序改变意义，BERT/GPT 类模型都会加入位置信息。

2. 概念：正弦–余弦位置编码（用钟表来想）

先建立直觉： 想象一块指针表。秒针转得快，分针中等，时针很慢。三根针指向的组合能告诉你「现在几点几分」——就像给第几个词贴上可区分的信号。每根针转速不同，两个时刻离得近还是远（相对距离）也更好分辨。正弦–余弦 PE 类似：把几种慢波、快波叠在一起，让每个位置有一组不同的数字模式。

再多一句： 经典 Transformer 在向量不同维度上放 $\sin$ 与成对的 $\cos$ 这种周期性重复的值，并用多组频率，让模型更容易区分相邻位置与相隔较远的位置。

公式（不必背，供查阅）：

PE(t,2i)=\sin(t/10000^{2i/d_{model}})

，

PE(t,2i+1)=\cos(t/10000^{2i/d_{model}})

。

t

是第几个词元，

i

是维度下标，

d_{model}

是向量长度。

白话拆解： 可以把整个式子理解成：给每个位置 $t$ 造一串数字，当作位置指纹。向量有

d_{model}

个分量，两两一对就像转速不同的波叠在一起。 $t$ 表示句子中第几个词； $i$ 更像在选哪一档频率（慢波到快波）。 $d_{model}$ 是向量总长，出现在指数里是为了别把频率调得太极端。相邻位置数值变化小，相距更远更容易差别大，有助于模型感知相对远近。 $\sin$ 配 $\cos$ 类似用两个坐标描述指针角度，比单靠一种波更稳（细节不必死记）。

应用： 长上下文编码器等，后续有 RoPE 等发展。

3. 概念：前馈层（FFN）——逐词“深度面谈”

一句话： 注意力让词与词互相混合；FFN则在下一步保持每一路分开，对每一路用同一套小网络各算一次（接近上图绿色计算块）。

比喻： 开完集体会（注意力）后，每个人单独进小隔间再聊一轮（FFN）。向量宽度

d_{model}

常先扩宽中间再压回，像沙漏。

为什么需要？ 注意力多是线性变换与混合；FFN 里加 ReLU（

\max(0,\cdot)

）等非线性，才能学到弯弯曲曲的规则，而不只是直线关系。

公式（查阅即可）：

\mathrm{FFN}(x)=\max(0,xW_1+b_1)W_2+b_2

。

W_1,W_2

通常各位置共享。

应用： 情感、NER 等——注意力收上下文，FFN 精修每个词。

4. 概念：块内流程——传送带的一站

一句话： 编码器一个块像流水线一站，步骤顺序固定不变。

好记顺序：

1. 准备： 在嵌入上加 PE，让词元带上“第几个”的信息。

2. 混合： 注意力交换词间上下文。

3. 稳住： Add & Norm — 残差相加防信号消失，再层归一化把尺度拉齐。

4. 分路加工： FFN对每一路做非线性更新。

5. 再来一次 Add & Norm 收尾。

公式（查阅即可）： 先

h'=\mathrm{LayerNorm}(h+\mathrm{Attn}(h))

，再

h''=\mathrm{LayerNorm}(h'+\mathrm{FFN}(h'))

。把这一整块叠很多层。

应用： 搜索、聊天、代码生成等。