みんなのAI
機械学習AI論文

学ぶ

  • AI論文
  • 理論・数学基盤
    • 2026
      • CPAL
        • 影響関数の Kernel von Mises 公式
  • 最適化・効率化
    • PolarQuant:極座標変換による KV キャッシュ量子化
  • アーキテクチャ・アルゴリズム
    • 2026
      • CPAL
        • AlphaFormer:トランスフォーマによるアルファ因子のエンドツーエンド記号回帰
  • 予測・表形式データ
  • AutoML・MLパイプライン
    • 2025
      • ICML
        • AutoML-Agent:全パイプライン AutoML のためのマルチエージェント LLM フレームワーク
      • ICLR
        • SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning
  • ビジョン・マルチモーダル
  • NLP・LLM
    • 2026
      • CPAL
        • 大規模言語モデルにおける深さの呪い
  • 信頼性・XAI
  • データ中心・特徴設計
  • エッジ・ウェブ
  • ドメイン応用
🏅マイ実績
学ぶ/AI論文/NLP・LLM/CPAL2026/大規模言語モデルにおける深さの呪い

大規模言語モデルにおける深さの呪い

このレビューでは、「なぜ LLM を深くしても後段レイヤーが十分に働かなくなるのか」を解説します。論文は Pre-LN Transformer における深さ方向の分散蓄積を理論的に分析し、LayerNorm 出力に 1l\frac{1}{\sqrt{l}}l​1​ を掛けるだけで深いレイヤーの有効性を回復できることを示します。
PDF原文論文 PDF を見る↗

[要約と導入]

- 深い LLM では後段レイヤーの寄与が落ちやすい
- Pre-LN は安定だが深さで分散が蓄積しうる
- LNS は 1l\frac{1}{\sqrt{l}}l​1​ で深さ依存の制御を入れる
比喩: 100台のアンプを直列につないだ音響系を想像してください。後ろに行くほど雑音が積み上がると、最後は原音よりノイズが勝ってしまいます。LNS は後段ほど強く効く自動ボリューム制御です。
[背景知識] 必要な基礎(詳しめ)
定義 → 深さで何が起きるか → 本論文 の順で読んでください。
- 残差接続
hl+1=hl+F(hl)h_{l+1}=h_l+F(h_l)hl+1​=hl​+F(hl​) で hlh_lhl​ がショートカットされ、FFF が更新を担います。勾配・表現の流れは助ける一方、各 FFF の小さな揺らぎが 加算で積み上がる経路 でもあります。LNS はその振幅を 深さに応じて抑え、後段も変換に関与させます。
- Pre-LN / Post-LN
Pre-LN は hl+1=hl+F(LN(hl))h_{l+1}=h_l+F(\mathrm{LN}(h_l))hl+1​=hl​+F(LN(hl​)) で大規模 LLM で主流。Post-LN は hl+1=LN(hl+F(hl))h_{l+1}=\mathrm{LN}(h_l+F(h_l))hl+1​=LN(hl​+F(hl​)) で学習が難しめのことも。本論文は Pre-LN 前提で 深い層の実質パススルー を論じ、1l\frac{1}{\sqrt{l}}l​1​ スケールで緩和します。
- 分散の膨張
深さに伴い活性の 広がり が増し、後段で差が拡大します。残差の足し算が揺らぎを蓄積させ、制御なしでは 恒等に近い安定写像 へ寄りやすい。1l\frac{1}{\sqrt{l}}l​1​ は 有効分散を 1/l1/l1/l 側へ という読み方ができます。
- 恒等化(アイデンティティ崩壊)
Jl≈IJ_l\approx IJl​≈I なら hout≈hinh_{out}\approx h_{in}hout​≈hin​ に近く、計算はするが 新特徴がほぼ出ない層。LNS はその傾向を遅らせ 深さの実利用 を取り戻す狙いです。
- 深さの利用率
層を増やしたコストに見合う損失改善があるか。なければ深さはオーバーヘッド。本論文は「より深く積む」より 深さを最後まで働かせる 設計と読むのが適切です。

[提案法] 核心式

h~(l)=LN(h(l))⋅1l\tilde{h}^{(l)} = \mathrm{LN}(h^{(l)}) \cdot \frac{1}{\sqrt{l}}h~(l)=LN(h(l))⋅l​1​
深い層ほど LayerNorm 出力の振幅をより強く抑える、非常にシンプルな設計です。
Var[h~(l)]≈1l Var[LN(h(l))]\mathrm{Var}\left[\tilde{h}^{(l)}\right] \approx \frac{1}{l}\,\mathrm{Var}\left[\mathrm{LN}(h^{(l)})\right]Var[h~(l)]≈l1​Var[LN(h(l))]
と読むと、深さに応じて有効分散をなだらかに抑える意図が見えます。
記号の読み方(同じ「提案」節の中)
別カードを付けず、上の核となる式に出てくる記号だけを 意味と役割 で整理します。
- lll: 現在のレイヤー番号。
- LLL: 全レイヤー数。
- h(l)h^{(l)}h(l): lll 層で LayerNorm に入る活性。
- ddd: hidden dimension。
- LN(h(l))\mathrm{LN}(h^{(l)})LN(h(l)): 正規化された信号。
- h~(l)\tilde{h}^{(l)}h~(l): LNS 適用後の出力。
- 1l\frac{1}{\sqrt{l}}l​1​: 深い層ほど強く効く減衰係数。
- Residual 系がアクセルなら、LNS は暴走を止めるブレーキです。
- 要点は深い層を弱めることではなく、壊れずに学習を続けられるよう安定化することです。

[直感的理解]

- LayerNorm は信号を整える基本整流
- 1l\frac{1}{\sqrt{l}}l​1​ は深い層ほど強くなるブレーキ
- Residual/Attention/FFN はアクセル、LNS はブレーキ
- 両者を組み合わせることで、深層でも表現力を保ちながら暴走を防ぐ
要するに LNS は深い層を殺すのではなく、深い層が壊れず働けるように振幅を管理する仕組みです。

[Toy Data Walkthrough]

6層モデルを考えると、l=1l=1l=1 では係数は 1.0、l=2l=2l=2 では約 0.707、l=4l=4l=4 では 0.5 と、深くなるほど出力が段階的に抑えられます。これにより、前半では十分な表現拡張を許しつつ、後半ではノイズの累積だけを強く抑えます。

[実験と結果]

論文は小規模から数十億パラメータ級まで、LNS が実際の学習でも有効であることを示します。
- 追加のハイパーパラメータに頼らない
- 大規模学習でより良い収束傾向を示す
- 深い層の表現多様性をより保つ
実務的には、実装コストが小さいわりに深さ効率の改善余地が大きい点が魅力です。

[結論と限界]

- 深い層が有効になると、剪定や量子化の前段階の表現品質が上がる
- SFT や下流タスク適応で使える深層特徴が増える
- 既存の Pre-LN パイプラインに入れやすい
一方で、Post-LN や Normalization-free、マルチモーダル分岐への一般化は今後の課題です。

可視化企画: 暴走増幅 vs 深さ制御

左は深さ増加に伴う分散蓄積、右は深さ依存スケーリングによる安定化を示します。レスポンシブ実装では `minHeight: 320px` と SVG `viewBox` を維持します。

従来 Pre-LN

分散が積み上がり、後段が恒等写像に近づきます。

レイヤー寄与度Layer 1Layer L後段レイヤーの恒等化分散増大

提案 LNS

深さごとの制御で振幅を安定させ、深層寄与を保ちます。

レイヤー寄与度Layer 1Layer L深層寄与を維持制御された振幅
LNS の魅力は、巨大な設計変更なしに深さの呪いへ正面から対処できる点です。深さを単なる計算量ではなく、実際の学習能力へ変えるための極めて実用的な一手と言えます。

관련 AI논문

  • - AutoML-Agent:全パイプライン AutoML のためのマルチエージェント LLM フレームワーク
  • - AlphaFormer:トランスフォーマによるアルファ因子のエンドツーエンド記号回帰
  • - 影響関数の Kernel von Mises 公式