### [摘要与导论]- 深层 LLM 的后段层常常没有发挥预期作用- Pre-LN 虽稳定,但方差会随深度累积- LNS 用 1l\frac{1}{\sqrt{l}}l1 做深度相关控制比喻: 想象 100 个功放串联的音响系统。如果每一级都带入一点噪声,最后原声会被“嘶嘶声”淹没。LNS 就像越往后越强的自动限幅器,保证信号一路传到末端时仍然可用。
### [背景知识]- Residual 有利于信息流动,但也提供了方差累积的通路- Pre-LN 有训练稳定性优势,却可能让深层逐渐失去变换能力- 方差爆炸会让后层尺度失控- 恒等塌缩表示层虽然计算了,但几乎只是在原样通过输入- 深度利用率关心的是“增加的层是否真的在学习”
### [提出的方法] 核心公式h~(l)=LN(h(l))⋅1l\tilde{h}^{(l)} = \mathrm{LN}(h^{(l)}) \cdot \frac{1}{\sqrt{l}}h~(l)=LN(h(l))⋅l1思想非常直接:层越深,越要更谨慎地控制输出振幅。Var[h~(l)]≈1l Var[LN(h(l))]\mathrm{Var}\left[\tilde{h}^{(l)}\right] \approx \frac{1}{l}\,\mathrm{Var}\left[\mathrm{LN}(h^{(l)})\right]Var[h~(l)]≈l1Var[LN(h(l))]这个视角说明,随着深度增加,有效方差会被逐步压住。符号拆解lll: 当前层编号。LLL: 总层数。h(l)h^{(l)}h(l): 第 lll 层进入 LayerNorm 前的激活。ddd: hidden dimension。LN(h(l))\mathrm{LN}(h^{(l)})LN(h(l)): 归一化后的信号。h~(l)\tilde{h}^{(l)}h~(l): 经过 LNS 之后的输出。1l\frac{1}{\sqrt{l}}l1: 随深度增加而增强的阻尼系数。Residual/Attention/FFN 像油门,LNS 像防止失控的刹车。关键不是削弱深层,而是让深层保持稳定并持续参与学习。
### [直觉解读]- LayerNorm 先把信号整理到较稳定的尺度上- 1l\frac{1}{\sqrt{l}}l1 是随深度增强的刹车- Residual、Attention、FFN 像油门,LNS 像刹车- 两者配合后,深层既不至于失控,也不必失去表达能力换句话说,LNS 不是让深层“安静到没用”,而是让深层“稳定到还能继续学习”。
### [Toy Data Walkthrough]设想一个 6 层模型。随着 residual 叠加,激活幅度本来会逐层变大。1. l=1l=1l=1 时系数为 1.0,几乎完整传递信号。2. l=2l=2l=2 时约为 0.707,开始轻微抑制增幅。3. l=3l=3l=3 时约为 0.577,对累积噪声的压制更明显。4. l=4l=4l=4 时为 0.5,后层的剧烈波动开始明显收敛。5. 到 l=5l=5l=5、l=6l=6l=6 时,放大趋势继续被压住,但有效特征仍能保留。因此,前层负责大胆构造特征,后层则在更稳的范围内继续细化表示。
### [实验与结果]论文显示,LNS 从较小模型到数十亿参数规模都能带来更好的深层利用趋势。- 不需要额外超参数搜索- 大规模实验中有更好的收敛表现- 深层表示之间保持更大的差异性,而不是逐渐收缩成相似状态从工程视角看,这类“改动极小、收益可能很大”的方法非常有吸引力。
### [结论与局限]- 更有效的深层利用能为剪枝、量化等后续优化打下更好的基础- 深层特征更丰富时,SFT 与下游适配空间也会更大- 方法很容易插入已有 Pre-LN 架构局限在于:目前分析仍主要围绕 Pre-LN,Post-LN、Normalization-free,以及多模态分支上的规律还需要继续验证。