The Curse of Depth in Large Language Models

현업에서 모델 압축의 한계를 돌파하거나, 대규모 모델의 성능 병목을 조금이라도 더 개선하기 위해 깊이를 키워 본 분이라면 이 논문의 문제의식이 바로 와닿습니다. 논문은 "레이어를 더 쌓았는데 왜 뒤쪽은 점점 덜 일하는가?"를 이론적으로 해부하고, 깊이에 따라 $\frac{1}{\sqrt{l}}$ 로 LayerNorm 출력을 제어하는 단 한 줄의 규칙으로 깊은 층의 학습 기여를 되살립니다.

PDF원문 논문 PDF 보기

J_l=\frac{\partial h^{(l)}_{out}}{\partial h^{(l)}_{in}}

h_{l+1}=h_l+F(h_l)

\tilde{h}^{(l)} = \mathrm{LN}(h^{(l)}) \cdot \frac{1}{\sqrt{l}}

[수식 작동 시뮬레이션] Toy Data Walkthrough 어려운 수식은 잠깐 내려놓고, "신호 볼륨"이 레이어를 지날 때 어떻게 변하는지만 보겠습니다. - 시작값을 1.00 으로 둡니다. (입력 신호 크기) - LNS 규칙은 간단합니다: 뒤 레이어일수록 볼륨을 더 눌러준다 . 1. 1층 거의 그대로 통과합니다. 아직은 정보를 충분히 키워도 되는 구간입니다. 2. 2층 볼륨이 조금 줄어듭니다. "과하게 커질 뻔한 값"만 살짝 눌러 줍니다. 3. 3층 한 번 더 눌러 줍니다. 앞에서 쌓인 작은 노이즈가 커지는 속도가 눈에 띄게 느려집니다. 4. 4층 이제부터는 제동이 꽤 확실해집니다. 값이 갑자기 튀는 현상이 줄어듭니다. 5. 5층 뒤층 특유의 과증폭을 더 강하게 막습니다. 그렇다고 학습이 멈추지는 않습니다. 6. 6층 끝단에서도 신호가 무너지지 않고 안정적으로 유지됩니다. "그냥 복사 통과"가 아니라 의미 있는 변환이 남습니다. 핵심 직관 한 줄: LNS는 초반엔 학습력을 살리고, 후반엔 폭주를 막아 줍니다. 그래서 깊은 모델이 끝까지 일하게 만듭니다.

\frac{1}{\sqrt{l}}

\frac{1}{\sqrt{l}}

도식화 기획: 통제 불능 증폭 vs 정밀 제어

왼쪽은 깊이가 깊어질수록 분산이 누적되어 신호가 붕괴되는 기존 Pre-LN 경로, 오른쪽은 깊이별 스케일링으로 진폭을 안정화해 깊은 레이어까지 유효 신호가 유지되는 LNS 경로를 애니메이션으로 대비합니다.

기존 Pre-LN

깊어질수록 잡음이 누적되어 뒤층이 사실상 항등 맵처럼 굳어집니다.

제안 LNS

깊이별 제동으로 진폭을 안정화해 깊은 층도 끝까지 학습에 참여시킵니다.

LNS의 매력은 거대한 아키텍처를 갈아엎지 않고도, 깊이의 저주를 수식 한 줄로 정면 돌파한다 는 점입니다. 수학적으로는 분산 폭주와 항등화를 제어하고, 실무적으로는 깊이를 늘린 비용이 실제 성능 향상으로 돌아오게 만듭니다. 그래서 이 논문은 "더 깊게 쌓는 법"이 아니라, 깊이를 끝까지 일하게 만드는 법 을 알려주는 설계서로 읽는 것이 가장 정확합니다.

The Curse of Depth in Large Language Models

도식화 기획: 통제 불능 증폭 vs 정밀 제어

기존 Pre-LN

제안 LNS

관련 AI논문

The Curse of Depth in Large Language Models

도식화 기획: 통제 불능 증폭 vs 정밀 제어

기존 Pre-LN

제안 LNS

관련 AI논문