大規模言語モデルにおける深さの呪い

このレビューでは、「なぜ LLM を深くしても後段レイヤーが十分に働かなくなるのか」を解説します。論文は Pre-LN Transformer における深さ方向の分散蓄積を理論的に分析し、LayerNorm 出力に

\frac{1}{\sqrt{l}}

を掛けるだけで深いレイヤーの有効性を回復できることを示します。

\frac{1}{\sqrt{l}}

h_{l+1}=h_l+F(h_l)

\tilde{h}^{(l)} = \mathrm{LN}(h^{(l)}) \cdot \frac{1}{\sqrt{l}}

l=1

[実験と結果] 論文は小規模から数十億パラメータ級まで、LNS が実際の学習でも有効であることを示します。 - 追加のハイパーパラメータに頼らない - 大規模学習でより良い収束傾向を示す - 深い層の表現多様性をより保つ 実務的には、実装コストが小さいわりに深さ効率の改善余地が大きい点が魅力です。

[結論と限界] - 深い層が有効になると、剪定や量子化の前段階の表現品質が上がる - SFT や下流タスク適応で使える深層特徴が増える - 既存の Pre-LN パイプラインに入れやすい 一方で、Post-LN や Normalization-free、マルチモーダル分岐への一般化は今後の課題です。

左は深さ増加に伴う分散蓄積、右は深さ依存スケーリングによる安定化を示します。レスポンシブ実装では `minHeight: 320px` と SVG `viewBox` を維持します。

分散が積み上がり、後段が恒等写像に近づきます。

深さごとの制御で振幅を安定させ、深層寄与を保ちます。

LNS の魅力は、巨大な設計変更なしに深さの呪いへ正面から対処できる点です。深さを単なる計算量ではなく、実際の学習能力へ変えるための極めて実用的な一手と言えます。

관련 AI논문