Ch.04

アテンション最適化：FlashAttentionとスパースアテンション

N\times N

密 vs Flash vs スパース

密

密: 全(i,j)をスコア→表現力↑、

N

大でコスト↑。

Flash

タイル: 同じsoftmaxをタイルで—HBM往復↓、体感速度↑。

スパース

スパース: 窓+少数グローバル→有効位置↓、長距離は設計で補う。

三つの選択

N

① Flash: IO効率で同じsoftmax。

② スパース: 辺削減—長距離をマスクに。

③ 密: $N^2$ を常に前提化。

④ 運用: OOM→Flash·バッチ·dtype / 品質→グローバル·RAG。

N

N

アテンション最適化: FlashAttentionとスパースアテンション

N

Q,K,V

学習 Flash／SDPA をオンにし ピークVRAM とステップ時間を見る。同じGPUで バッチ/文脈 を少し伸ばせることが多い。 推論 KVキャッシュ と 高速カーネル が TTFT とデコードを決める。 体感速度 に直結。 パターン 文書: 局所＋段落アンカー 。コード:スコープのため 窓拡大 。 データ がマスクを決める。 OOM ① 文長・バッチ・dtype \to ② Flash有効か \to ③ ダメなら チャンク/スパース/RAG。本当に 全対全 が要か先に整理。

N

N

アテンション最適化: FlashAttentionとスパースアテンション

1. 重くなる理由 概念: 長さ

N

でスコア表は約

N \times N

。直感: 全対全はだいたい二乗に近づく。実務: 長PDF・巨大プロンプトでOOMや遅延の主因。

覚えておく: 問題の中心はコスト曲線です。

2. FlashAttention HBMとSRAMの往復を減らし、タイルをオンチップで回す。同じsoftmax注意をカーネルで速くする話です。

数式: 変えないのは

\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

— 中間の出し方・場所だけがメモリ効率寄りになります。

覚えておく: 基本は同じ計算・速い経路です。

3. スパース 窓＋少数グローバルなど許可パターンだけ見せ、

|S_i| \ll N

。典型: ロジット

E=QK^T/\sqrt{d_k}

に対し

j\notin S_i

で

E_{ij}=-\infty

（softmax前）→ 行

i

の質量は

S_i

に集中。

利点: メモリ・演算削減。注意: 珍しい長距離が要るタスクではパターン外が痛い。

4. 違い Flash＝出力を揃えつつ高速化。スパース＝接続変更。現場: まずFlash、足りなければスパース＋評価。