Ch.04

注意力优化：FlashAttention 与稀疏注意力

N\times N

稠密 vs Flash vs 稀疏

稠密

稠密: 所有 (i,j) 都打分 → 表达↑，大

N

时 成本↑。

Flash

分块: 同一 softmax，分块执行 → HBM 往返↓，体感更快。

稀疏

稀疏: 窗口 + 全局锚点 → 活跃对更少；远距靠设计补齐。

三种路径一览

N

① Flash： IO 友好路径跑同一 softmax。

② 稀疏： 减边——长程写进掩码。

③ 稠密： $N^2$ 放进预算。

④ 工程： OOM → Flash·batch·dtype；效果 → 全局·RAG。

N

N

N \times N

Q,K,V

训练 打开 Flash / SDPA / 融合注意 ，盯 峰值显存 与步耗时。同一卡上往往可以略增 batch/序列 。 推理 KV 缓存 + 高效核 决定 TTFT 与解码； 体感延迟 最关键。 模式 文档： 局部+段落锚点 ；代码：括号/作用域可能需要更宽 窗口 。 数据 决定掩码。 OOM ① 长\cdot批\cdot精度 \to ② Flash真的开吗 \to ③ 仍紧 再试 切块/稀疏/RAG。先弄清是否真需要 全连接 。

N

N

注意力优化：FlashAttention 与稀疏注意力

1. 为何变重 概念: 注意力要一张约

N \times N

的分数表；长度稍涨，工作量常接近平方。类比: 握手。落地: 长 PDF、超长提示、批量推理最容易 OOM / 卡死。

记住: 核心是成本曲线。

2. FlashAttention 减少 HBM↔SRAM 往返，用 tile 在片上做完尽量多步骤。仍是同一套 softmax 注意，属于内核工程。

公式目标不变：

\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

——变的是分块与融合，不是映射（在数值意义上）。

记住: 默认叙事是同映射、更快跑。

3. 稀疏注意力 只让 query 看窗内邻居 + 少量全局点等，

|S_i| \ll N

。常见写法: 对 logits

E=QK^T/\sqrt{d_k}

，在

j\notin S_i

处令

E_{ij}=-\infty

（softmax 前），使第

i

行 softmax 只在

S_i

上有质量。

收益: 省算力、省显存。风险: 远距稀有关系可能被模式挡住。

记住: 本质是掩码/模式设计。

4. 区别 Flash→对齐 dense、加速。稀疏→改连接。实务: 先 Flash 度量；不够再 稀疏 + 评估。