The Curse of Depth in Large Language Models

このレビューでは、「なぜ LLM を深くしても後段レイヤーが十分に働かなくなるのか」を解説します。論文は Pre-LN Transformer における深さ方向の分散蓄積を理論的に分析し、LayerNorm 出力に 1l\frac{1}{\sqrt{l}} を掛けるだけで深いレイヤーの有効性を回復できることを示します。
PDF原文論文 PDF を見る
### [要約と導入]
- 深い LLM では後段レイヤーの寄与が落ちやすい
- Pre-LN は安定だが深さで分散が蓄積しうる
- LNS は 1l\frac{1}{\sqrt{l}} で深さ依存の制御を入れる
比喩: 100台のアンプを直列につないだ音響系を想像してください。後ろに行くほど雑音が積み上がると、最後は原音よりノイズが勝ってしまいます。LNS は後段ほど強く効く自動ボリューム制御です。
### [背景知識]
- Residual は情報伝達に有利だが、分散蓄積の経路にもなる
- Pre-LN は最適化を安定化するが、深層で変換力が弱くなることがある
- 分散爆発は深い層でスケールが暴れやすくなる現象
- 恒等化は計算しても実質的に入力を通すだけの状態
- 深さ活用度は「増やした層が本当に働いているか」を問う視点
### [提案法] 核心式
h~(l)=LN(h(l))1l\tilde{h}^{(l)} = \mathrm{LN}(h^{(l)}) \cdot \frac{1}{\sqrt{l}}
深い層ほど LayerNorm 出力の振幅をより強く抑える、非常にシンプルな設計です。
Var[h~(l)]1lVar[LN(h(l))]\mathrm{Var}\left[\tilde{h}^{(l)}\right] \approx \frac{1}{l}\,\mathrm{Var}\left[\mathrm{LN}(h^{(l)})\right]
と読むと、深さに応じて有効分散をなだらかに抑える意図が見えます。

記号の読み解き

ll: 現在のレイヤー番号。
LL: 全レイヤー数。
h(l)h^{(l)}: ll 層で LayerNorm に入る活性。
dd: hidden dimension。
LN(h(l))\mathrm{LN}(h^{(l)}): 正規化された信号。
h~(l)\tilde{h}^{(l)}: LNS 適用後の出力。
1l\frac{1}{\sqrt{l}}: 深い層ほど強く効く減衰係数。
Residual 系がアクセルなら、LNS は暴走を止めるブレーキです。
要点は深い層を弱めることではなく、壊れずに学習を続けられるよう安定化することです。
### [直感的理解]
- LayerNorm は信号を整える基本整流
- 1l\frac{1}{\sqrt{l}} は深い層ほど強くなるブレーキ
- Residual/Attention/FFN はアクセル、LNS はブレーキ
- 両者を組み合わせることで、深層でも表現力を保ちながら暴走を防ぐ
要するに LNS は深い層を殺すのではなく、深い層が壊れず働けるように振幅を管理する仕組みです。
### [Toy Data Walkthrough]
6層モデルを考えると、l=1l=1 では係数は 1.0、l=2l=2 では約 0.707、l=4l=4 では 0.5 と、深くなるほど出力が段階的に抑えられます。これにより、前半では十分な表現拡張を許しつつ、後半ではノイズの累積だけを強く抑えます。
### [実験と結果]
論文は小規模から数十億パラメータ級まで、LNS が実際の学習でも有効であることを示します。
- 追加のハイパーパラメータに頼らない
- 大規模学習でより良い収束傾向を示す
- 深い層の表現多様性をより保つ
実務的には、実装コストが小さいわりに深さ効率の改善余地が大きい点が魅力です。
### [結論と限界]
- 深い層が有効になると、剪定や量子化の前段階の表現品質が上がる
- SFT や下流タスク適応で使える深層特徴が増える
- 既存の Pre-LN パイプラインに入れやすい
一方で、Post-LN や Normalization-free、マルチモーダル分岐への一般化は今後の課題です。

可視化企画: 暴走増幅 vs 深さ制御

左は深さ増加に伴う分散蓄積、右は深さ依存スケーリングによる安定化を示します。レスポンシブ実装では `minHeight: 320px` と SVG `viewBox` を維持します。

従来 Pre-LN

分散が積み上がり、後段が恒等写像に近づきます。

レイヤー寄与度Layer 1Layer L後段レイヤーの恒等化分散増大

提案 LNS

深さごとの制御で振幅を安定させ、深層寄与を保ちます。

レイヤー寄与度Layer 1Layer L深層寄与を維持制御された振幅
LNS の魅力は、巨大な設計変更なしに深さの呪いへ正面から対処できる点です。深さを単なる計算量ではなく、実際の学習能力へ変えるための極めて実用的な一手と言えます。