机器学习 AI论文

搜索全部章节…

学习

搜索全部章节…

AI论文
理论·数学基础
- 2026
  - CPAL
    - Kernel von Mises 影响函数公式
模型优化·轻量化
- PolarQuant：基于极坐标变换的 KV 缓存量化
核心架构·算法
- 2026
  - CPAL
    - AlphaFormer：使用 Transformer 的端到端阿尔法因子符号回归
预测·表格数据
AutoML·ML 流水线
- 2025
  - ICML
    - AutoML-Agent：面向全流程 AutoML 的多智能体 LLM 框架
  - ICLR
    - SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning
视觉·多模态
NLP·大模型
- 2026
  - CPAL
    - 大语言模型中的深度诅咒
可信·可解释
数据为中心·特征
边缘·网页·服务
领域应用

🏅我的成就

学习/AI论文/NLP·大模型/CPAL2026/大语言模型中的深度诅咒

大语言模型中的深度诅咒

本文解释一个很关键的问题：为什么把 LLM 堆得更深，并不总能换来更强的表示能力。论文从理论上分析了 Pre-LN Transformer 中沿深度方向累积的方差，并提出只需在 LayerNorm 输出后乘上

\frac{1}{\sqrt{l}}

，就能让深层不再逐渐“恒等化”。

PDF查看原论文 PDF↗

\frac{1}{\sqrt{l}}

h_{l+1}=h_l+F(h_l)

\tilde{h}^{(l)} = \mathrm{LN}(h^{(l)}) \cdot \frac{1}{\sqrt{l}}

l=1

[实验与结果] 论文显示，LNS 从较小模型到数十亿参数规模都能带来更好的深层利用趋势。 - 不需要额外超参数搜索 - 大规模实验中有更好的收敛表现 - 深层表示之间保持更大的差异性，而不是逐渐收缩成相似状态 从工程视角看，这类“改动极小、收益可能很大”的方法非常有吸引力。

[结论与局限] - 更有效的深层利用能为剪枝、量化等后续优化打下更好的基础 - 深层特征更丰富时，SFT 与下游适配空间也会更大 - 方法很容易插入已有 Pre-LN 架构 局限在于：目前分析仍主要围绕 Pre-LN，Post-LN、Normalization-free，以及多模态分支上的规律还需要继续验证。

可视化方案：失控增幅 vs 精准控制

左侧展示旧式 Pre-LN 中方差随深度累积的趋势，右侧展示 LNS 如何让振幅保持受控。前端建议保持 `minHeight: 320px` 并使用基于 `viewBox` 的 SVG 布局。

传统 Pre-LN

方差不断累积，后层逐渐接近恒等映射。

提出的 LNS

通过深度相关阻尼稳定振幅，保住深层有效性。

LNS 的吸引力在于，它几乎不增加架构复杂度，却能正面处理“深度诅咒”。这让“更深”不再只是更多计算，而更接近真正可用的学习能力。

관련 AI논문

- AutoML-Agent：面向全流程 AutoML 的多智能体 LLM 框架
- AlphaFormer：使用 Transformer 的端到端阿尔法因子符号回归
- Kernel von Mises 影响函数公式