[摘要与导论]- 深层 LLM 的后段层常常没有发挥预期作用- Pre-LN 虽稳定,但方差会随深度累积- LNS 用 1l\frac{1}{\sqrt{l}}l1 做深度相关控制比喻: 想象 100 个功放串联的音响系统。如果每一级都带入一点噪声,最后原声会被“嘶嘶声”淹没。LNS 就像越往后越强的自动限幅器,保证信号一路传到末端时仍然可用。
[背景知识] 必备概念(展开)按 定义 → 深度带来的麻烦 → 与本文关系 阅读。- 残差连接hl+1=hl+F(hl)h_{l+1}=h_l+F(h_l)hl+1=hl+F(hl):hlh_lhl 走捷径,FFF 提出更新。利于梯度与表征,但各层小扰动也会 沿加法累积。LNS 用 随深度缩放 压振幅,让后层继续参与变换而非直通。- Pre-LN / Post-LNPre-LN:hl+1=hl+F(LN(hl))h_{l+1}=h_l+F(\mathrm{LN}(h_l))hl+1=hl+F(LN(hl)),大模型常用。Post-LN:hl+1=LN(hl+F(hl))h_{l+1}=\mathrm{LN}(h_l+F(h_l))hl+1=LN(hl+F(hl)),有时更难训。本文在 Pre-LN 前提下讨论 深层近似恒等,并用 1l\frac{1}{\sqrt{l}}l1 缓解。- 方差膨胀随深度激活 spread 增大,残差反复 相加 放大扰动;无控制时易滑向 少改变输出 的映射。1l\frac{1}{\sqrt{l}}l1 可理解为把有效方差压到约 1/l1/l1/l 量级。- 恒等塌陷若 Jl≈IJ_l\approx IJl≈I,层近似 复制 输入:算力花了但新特征少。LNS 旨在推迟该现象、提高 深度利用率。- 深度利用率多出来的层是否换来更好的 loss/下游指标;否则深度多是 浪费。本文重点是让深度 真正工作到最后,而非单纯堆层。
[提出的方法] 核心公式h~(l)=LN(h(l))⋅1l\tilde{h}^{(l)} = \mathrm{LN}(h^{(l)}) \cdot \frac{1}{\sqrt{l}}h~(l)=LN(h(l))⋅l1思想非常直接:层越深,越要更谨慎地控制输出振幅。Var[h~(l)]≈1l Var[LN(h(l))]\mathrm{Var}\left[\tilde{h}^{(l)}\right] \approx \frac{1}{l}\,\mathrm{Var}\left[\mathrm{LN}(h^{(l)})\right]Var[h~(l)]≈l1Var[LN(h(l))]这个视角说明,随着深度增加,有效方差会被逐步压住。符号与读法(仍在「方法」一节内)不设单独术语表,下面只汇总 含义与作用,对应上文核心公式。- lll: 当前层编号。- LLL: 总层数。- h(l)h^{(l)}h(l): 第 lll 层进入 LayerNorm 前的激活。- ddd: hidden dimension。- LN(h(l))\mathrm{LN}(h^{(l)})LN(h(l)): 归一化后的信号。- h~(l)\tilde{h}^{(l)}h~(l): 经过 LNS 之后的输出。- 1l\frac{1}{\sqrt{l}}l1: 随深度增加而增强的阻尼系数。- Residual/Attention/FFN 像油门,LNS 像防止失控的刹车。- 关键不是削弱深层,而是让深层保持稳定并持续参与学习。[直觉解读]- LayerNorm 先把信号整理到较稳定的尺度上- 1l\frac{1}{\sqrt{l}}l1 是随深度增强的刹车- Residual、Attention、FFN 像油门,LNS 像刹车- 两者配合后,深层既不至于失控,也不必失去表达能力换句话说,LNS 不是让深层“安静到没用”,而是让深层“稳定到还能继续学习”。
[Toy Data Walkthrough]设想一个 6 层模型。随着 residual 叠加,激活幅度本来会逐层变大。1. l=1l=1l=1 时系数为 1.0,几乎完整传递信号。2. l=2l=2l=2 时约为 0.707,开始轻微抑制增幅。3. l=3l=3l=3 时约为 0.577,对累积噪声的压制更明显。4. l=4l=4l=4 时为 0.5,后层的剧烈波动开始明显收敛。5. 到 l=5l=5l=5、l=6l=6l=6 时,放大趋势继续被压住,但有效特征仍能保留。因此,前层负责大胆构造特征,后层则在更稳的范围内继续细化表示。
[实验与结果]论文显示,LNS 从较小模型到数十亿参数规模都能带来更好的深层利用趋势。- 不需要额外超参数搜索- 大规模实验中有更好的收敛表现- 深层表示之间保持更大的差异性,而不是逐渐收缩成相似状态从工程视角看,这类“改动极小、收益可能很大”的方法非常有吸引力。
[结论与局限]- 更有效的深层利用能为剪枝、量化等后续优化打下更好的基础- 深层特征更丰富时,SFT 与下游适配空间也会更大- 方法很容易插入已有 Pre-LN 架构局限在于:目前分析仍主要围绕 Pre-LN,Post-LN、Normalization-free,以及多模态分支上的规律还需要继续验证。