### [要約と導入]- 深い LLM では後段レイヤーの寄与が落ちやすい- Pre-LN は安定だが深さで分散が蓄積しうる- LNS は 1l\frac{1}{\sqrt{l}}l1 で深さ依存の制御を入れる比喩: 100台のアンプを直列につないだ音響系を想像してください。後ろに行くほど雑音が積み上がると、最後は原音よりノイズが勝ってしまいます。LNS は後段ほど強く効く自動ボリューム制御です。
### [背景知識]- Residual は情報伝達に有利だが、分散蓄積の経路にもなる- Pre-LN は最適化を安定化するが、深層で変換力が弱くなることがある- 分散爆発は深い層でスケールが暴れやすくなる現象- 恒等化は計算しても実質的に入力を通すだけの状態- 深さ活用度は「増やした層が本当に働いているか」を問う視点
### [提案法] 核心式h~(l)=LN(h(l))⋅1l\tilde{h}^{(l)} = \mathrm{LN}(h^{(l)}) \cdot \frac{1}{\sqrt{l}}h~(l)=LN(h(l))⋅l1深い層ほど LayerNorm 出力の振幅をより強く抑える、非常にシンプルな設計です。Var[h~(l)]≈1l Var[LN(h(l))]\mathrm{Var}\left[\tilde{h}^{(l)}\right] \approx \frac{1}{l}\,\mathrm{Var}\left[\mathrm{LN}(h^{(l)})\right]Var[h~(l)]≈l1Var[LN(h(l))]と読むと、深さに応じて有効分散をなだらかに抑える意図が見えます。記号の読み解きlll: 現在のレイヤー番号。LLL: 全レイヤー数。h(l)h^{(l)}h(l): lll 層で LayerNorm に入る活性。ddd: hidden dimension。LN(h(l))\mathrm{LN}(h^{(l)})LN(h(l)): 正規化された信号。h~(l)\tilde{h}^{(l)}h~(l): LNS 適用後の出力。1l\frac{1}{\sqrt{l}}l1: 深い層ほど強く効く減衰係数。Residual 系がアクセルなら、LNS は暴走を止めるブレーキです。要点は深い層を弱めることではなく、壊れずに学習を続けられるよう安定化することです。
### [直感的理解]- LayerNorm は信号を整える基本整流- 1l\frac{1}{\sqrt{l}}l1 は深い層ほど強くなるブレーキ- Residual/Attention/FFN はアクセル、LNS はブレーキ- 両者を組み合わせることで、深層でも表現力を保ちながら暴走を防ぐ要するに LNS は深い層を殺すのではなく、深い層が壊れず働けるように振幅を管理する仕組みです。
### [Toy Data Walkthrough]6層モデルを考えると、l=1l=1l=1 では係数は 1.0、l=2l=2l=2 では約 0.707、l=4l=4l=4 では 0.5 と、深くなるほど出力が段階的に抑えられます。これにより、前半では十分な表現拡張を許しつつ、後半ではノイズの累積だけを強く抑えます。
### [実験と結果]論文は小規模から数十億パラメータ級まで、LNS が実際の学習でも有効であることを示します。- 追加のハイパーパラメータに頼らない- 大規模学習でより良い収束傾向を示す- 深い層の表現多様性をより保つ実務的には、実装コストが小さいわりに深さ効率の改善余地が大きい点が魅力です。
### [結論と限界]- 深い層が有効になると、剪定や量子化の前段階の表現品質が上がる- SFT や下流タスク適応で使える深層特徴が増える- 既存の Pre-LN パイプラインに入れやすい一方で、Post-LN や Normalization-free、マルチモーダル分岐への一般化は今後の課題です。