The Curse of Depth in Large Language Models

本文解释一个很关键的问题:为什么把 LLM 堆得更深,并不总能换来更强的表示能力。论文从理论上分析了 Pre-LN Transformer 中沿深度方向累积的方差,并提出只需在 LayerNorm 输出后乘上 1l\frac{1}{\sqrt{l}},就能让深层不再逐渐“恒等化”。
PDF查看原论文 PDF
### [摘要与导论]
- 深层 LLM 的后段层常常没有发挥预期作用
- Pre-LN 虽稳定,但方差会随深度累积
- LNS 用 1l\frac{1}{\sqrt{l}} 做深度相关控制
比喻: 想象 100 个功放串联的音响系统。如果每一级都带入一点噪声,最后原声会被“嘶嘶声”淹没。LNS 就像越往后越强的自动限幅器,保证信号一路传到末端时仍然可用。
### [背景知识]
- Residual 有利于信息流动,但也提供了方差累积的通路
- Pre-LN 有训练稳定性优势,却可能让深层逐渐失去变换能力
- 方差爆炸会让后层尺度失控
- 恒等塌缩表示层虽然计算了,但几乎只是在原样通过输入
- 深度利用率关心的是“增加的层是否真的在学习”
### [提出的方法] 核心公式
h~(l)=LN(h(l))1l\tilde{h}^{(l)} = \mathrm{LN}(h^{(l)}) \cdot \frac{1}{\sqrt{l}}
思想非常直接:层越深,越要更谨慎地控制输出振幅。
Var[h~(l)]1lVar[LN(h(l))]\mathrm{Var}\left[\tilde{h}^{(l)}\right] \approx \frac{1}{l}\,\mathrm{Var}\left[\mathrm{LN}(h^{(l)})\right]
这个视角说明,随着深度增加,有效方差会被逐步压住。

符号拆解

ll: 当前层编号。
LL: 总层数。
h(l)h^{(l)}: 第 ll 层进入 LayerNorm 前的激活。
dd: hidden dimension。
LN(h(l))\mathrm{LN}(h^{(l)}): 归一化后的信号。
h~(l)\tilde{h}^{(l)}: 经过 LNS 之后的输出。
1l\frac{1}{\sqrt{l}}: 随深度增加而增强的阻尼系数。
Residual/Attention/FFN 像油门,LNS 像防止失控的刹车。
关键不是削弱深层,而是让深层保持稳定并持续参与学习。
### [直觉解读]
- LayerNorm 先把信号整理到较稳定的尺度上
- 1l\frac{1}{\sqrt{l}} 是随深度增强的刹车
- Residual、Attention、FFN 像油门,LNS 像刹车
- 两者配合后,深层既不至于失控,也不必失去表达能力
换句话说,LNS 不是让深层“安静到没用”,而是让深层“稳定到还能继续学习”。
### [Toy Data Walkthrough]
设想一个 6 层模型。随着 residual 叠加,激活幅度本来会逐层变大。
1. l=1l=1 时系数为 1.0,几乎完整传递信号。
2. l=2l=2 时约为 0.707,开始轻微抑制增幅。
3. l=3l=3 时约为 0.577,对累积噪声的压制更明显。
4. l=4l=4 时为 0.5,后层的剧烈波动开始明显收敛。
5. 到 l=5l=5l=6l=6 时,放大趋势继续被压住,但有效特征仍能保留。
因此,前层负责大胆构造特征,后层则在更稳的范围内继续细化表示。
### [实验与结果]
论文显示,LNS 从较小模型到数十亿参数规模都能带来更好的深层利用趋势。
- 不需要额外超参数搜索
- 大规模实验中有更好的收敛表现
- 深层表示之间保持更大的差异性,而不是逐渐收缩成相似状态
从工程视角看,这类“改动极小、收益可能很大”的方法非常有吸引力。
### [结论与局限]
- 更有效的深层利用能为剪枝、量化等后续优化打下更好的基础
- 深层特征更丰富时,SFT 与下游适配空间也会更大
- 方法很容易插入已有 Pre-LN 架构
局限在于:目前分析仍主要围绕 Pre-LN,Post-LN、Normalization-free,以及多模态分支上的规律还需要继续验证。

可视化方案:失控增幅 vs 精准控制

左侧展示旧式 Pre-LN 中方差随深度累积的趋势,右侧展示 LNS 如何让振幅保持受控。前端建议保持 `minHeight: 320px` 并使用基于 `viewBox` 的 SVG 布局。

传统 Pre-LN

方差不断累积,后层逐渐接近恒等映射。

层贡献度Layer 1Layer L后层趋于恒等映射方差增长

提出的 LNS

通过深度相关阻尼稳定振幅,保住深层有效性。

层贡献度Layer 1Layer L深层保持有效贡献受控振幅
LNS 的吸引力在于,它几乎不增加架构复杂度,却能正面处理“深度诅咒”。这让“更深”不再只是更多计算,而更接近真正可用的学习能力。