大家的AI
机器学习AI论文

学习

  • AI论文
  • 理论·数学基础
    • 2026
      • CPAL
        • Kernel von Mises 影响函数公式
  • 模型优化·轻量化
    • PolarQuant:基于极坐标变换的 KV 缓存量化
  • 核心架构·算法
    • 2026
      • CPAL
        • AlphaFormer:使用 Transformer 的端到端阿尔法因子符号回归
  • 预测·表格数据
  • AutoML·ML 流水线
    • 2025
      • ICML
        • AutoML-Agent:面向全流程 AutoML 的多智能体 LLM 框架
      • ICLR
        • SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning
  • 视觉·多模态
  • NLP·大模型
    • 2026
      • CPAL
        • 大语言模型中的深度诅咒
  • 可信·可解释
  • 数据为中心·特征
  • 边缘·网页·服务
  • 领域应用
🏅我的成就
学习/AI论文/NLP·大模型/CPAL2026/大语言模型中的深度诅咒

大语言模型中的深度诅咒

本文解释一个很关键的问题:为什么把 LLM 堆得更深,并不总能换来更强的表示能力。论文从理论上分析了 Pre-LN Transformer 中沿深度方向累积的方差,并提出只需在 LayerNorm 输出后乘上 1l\frac{1}{\sqrt{l}}l​1​,就能让深层不再逐渐“恒等化”。
PDF查看原论文 PDF↗

[摘要与导论]

- 深层 LLM 的后段层常常没有发挥预期作用
- Pre-LN 虽稳定,但方差会随深度累积
- LNS 用 1l\frac{1}{\sqrt{l}}l​1​ 做深度相关控制
比喻: 想象 100 个功放串联的音响系统。如果每一级都带入一点噪声,最后原声会被“嘶嘶声”淹没。LNS 就像越往后越强的自动限幅器,保证信号一路传到末端时仍然可用。
[背景知识] 必备概念(展开)
按 定义 → 深度带来的麻烦 → 与本文关系 阅读。
- 残差连接
hl+1=hl+F(hl)h_{l+1}=h_l+F(h_l)hl+1​=hl​+F(hl​):hlh_lhl​ 走捷径,FFF 提出更新。利于梯度与表征,但各层小扰动也会 沿加法累积。LNS 用 随深度缩放 压振幅,让后层继续参与变换而非直通。
- Pre-LN / Post-LN
Pre-LN:hl+1=hl+F(LN(hl))h_{l+1}=h_l+F(\mathrm{LN}(h_l))hl+1​=hl​+F(LN(hl​)),大模型常用。Post-LN:hl+1=LN(hl+F(hl))h_{l+1}=\mathrm{LN}(h_l+F(h_l))hl+1​=LN(hl​+F(hl​)),有时更难训。本文在 Pre-LN 前提下讨论 深层近似恒等,并用 1l\frac{1}{\sqrt{l}}l​1​ 缓解。
- 方差膨胀
随深度激活 spread 增大,残差反复 相加 放大扰动;无控制时易滑向 少改变输出 的映射。1l\frac{1}{\sqrt{l}}l​1​ 可理解为把有效方差压到约 1/l1/l1/l 量级。
- 恒等塌陷
若 Jl≈IJ_l\approx IJl​≈I,层近似 复制 输入:算力花了但新特征少。LNS 旨在推迟该现象、提高 深度利用率。
- 深度利用率
多出来的层是否换来更好的 loss/下游指标;否则深度多是 浪费。本文重点是让深度 真正工作到最后,而非单纯堆层。

[提出的方法] 核心公式

h~(l)=LN(h(l))⋅1l\tilde{h}^{(l)} = \mathrm{LN}(h^{(l)}) \cdot \frac{1}{\sqrt{l}}h~(l)=LN(h(l))⋅l​1​
思想非常直接:层越深,越要更谨慎地控制输出振幅。
Var[h~(l)]≈1l Var[LN(h(l))]\mathrm{Var}\left[\tilde{h}^{(l)}\right] \approx \frac{1}{l}\,\mathrm{Var}\left[\mathrm{LN}(h^{(l)})\right]Var[h~(l)]≈l1​Var[LN(h(l))]
这个视角说明,随着深度增加,有效方差会被逐步压住。
符号与读法(仍在「方法」一节内)
不设单独术语表,下面只汇总 含义与作用,对应上文核心公式。
- lll: 当前层编号。
- LLL: 总层数。
- h(l)h^{(l)}h(l): 第 lll 层进入 LayerNorm 前的激活。
- ddd: hidden dimension。
- LN(h(l))\mathrm{LN}(h^{(l)})LN(h(l)): 归一化后的信号。
- h~(l)\tilde{h}^{(l)}h~(l): 经过 LNS 之后的输出。
- 1l\frac{1}{\sqrt{l}}l​1​: 随深度增加而增强的阻尼系数。
- Residual/Attention/FFN 像油门,LNS 像防止失控的刹车。
- 关键不是削弱深层,而是让深层保持稳定并持续参与学习。

[直觉解读]

- LayerNorm 先把信号整理到较稳定的尺度上
- 1l\frac{1}{\sqrt{l}}l​1​ 是随深度增强的刹车
- Residual、Attention、FFN 像油门,LNS 像刹车
- 两者配合后,深层既不至于失控,也不必失去表达能力
换句话说,LNS 不是让深层“安静到没用”,而是让深层“稳定到还能继续学习”。

[Toy Data Walkthrough]

设想一个 6 层模型。随着 residual 叠加,激活幅度本来会逐层变大。
1. l=1l=1l=1 时系数为 1.0,几乎完整传递信号。
2. l=2l=2l=2 时约为 0.707,开始轻微抑制增幅。
3. l=3l=3l=3 时约为 0.577,对累积噪声的压制更明显。
4. l=4l=4l=4 时为 0.5,后层的剧烈波动开始明显收敛。
5. 到 l=5l=5l=5、l=6l=6l=6 时,放大趋势继续被压住,但有效特征仍能保留。
因此,前层负责大胆构造特征,后层则在更稳的范围内继续细化表示。

[实验与结果]

论文显示,LNS 从较小模型到数十亿参数规模都能带来更好的深层利用趋势。
- 不需要额外超参数搜索
- 大规模实验中有更好的收敛表现
- 深层表示之间保持更大的差异性,而不是逐渐收缩成相似状态
从工程视角看,这类“改动极小、收益可能很大”的方法非常有吸引力。

[结论与局限]

- 更有效的深层利用能为剪枝、量化等后续优化打下更好的基础
- 深层特征更丰富时,SFT 与下游适配空间也会更大
- 方法很容易插入已有 Pre-LN 架构
局限在于:目前分析仍主要围绕 Pre-LN,Post-LN、Normalization-free,以及多模态分支上的规律还需要继续验证。

可视化方案:失控增幅 vs 精准控制

左侧展示旧式 Pre-LN 中方差随深度累积的趋势,右侧展示 LNS 如何让振幅保持受控。前端建议保持 `minHeight: 320px` 并使用基于 `viewBox` 的 SVG 布局。

传统 Pre-LN

方差不断累积,后层逐渐接近恒等映射。

层贡献度Layer 1Layer L后层趋于恒等映射方差增长

提出的 LNS

通过深度相关阻尼稳定振幅,保住深层有效性。

层贡献度Layer 1Layer L深层保持有效贡献受控振幅
LNS 的吸引力在于,它几乎不增加架构复杂度,却能正面处理“深度诅咒”。这让“更深”不再只是更多计算,而更接近真正可用的学习能力。

관련 AI논문

  • - AutoML-Agent:面向全流程 AutoML 的多智能体 LLM 框架
  • - AlphaFormer:使用 Transformer 的端到端阿尔法因子符号回归
  • - Kernel von Mises 影响函数公式