[초록 & 서론] 3줄 요약 + 문제 제기
3줄 요약
- 치명적 문제점: 최신 거대 언어 모델에서는 뒤쪽 레이어 중 상당수가 기대만큼 표현을 만들지 못하고, 사실상 입력을 거의 그대로 통과시키는 깊이의 저주가 나타납니다.
- 고전적 방식의 한계: 기존 Pre-LN 방식은 "먼저 정규화하고, 그다음 어텐션/FFN 출력을 잔차로 계속 더하는" 구조입니다. 이 방식은 초반 학습은 안정적이지만, 레이어를 매우 깊게 쌓으면 각 층에서 생긴 작은 흔들림(분산)이 잔차 경로를 따라 계속 누적됩니다. 그 결과 후반부 레이어로 갈수록 출력 스케일이 커지고, 자코비안 이 항등행렬 에 가까워져(), 결국 처럼 입력을 거의 그대로 내보내는 층이 되기 쉽습니다. 쉽게 말해 "계산은 하는데 새 특징을 거의 못 만드는 상태"입니다.
- 핵심 해결책과 장점: LayerNorm 출력에 깊이별 스케일 을 곱하는 LayerNorm Scaling (LNS) 을 적용하면 분산 폭주를 억제하고, 깊은 레이어가 실제로 학습에 참여하는 구조를 되살릴 수 있습니다.
맞춤 비유: 100단 직렬 앰프와 화이트 노이즈 폭발
수백 개의 앰프가 직렬로 연결된 스타디움 음향 시스템을 떠올려 봅시다. 앞단에서는 가수의 목소리가 선명하게 전달되지만, 뒤로 갈수록 각 앰프가 조금씩 더해 넣는 잡음이 쌓여 결국 마지막에는 "쏴아아" 하는 노이즈가 원음을 덮어버립니다. 기존 Pre-LN이 바로 이런 구조입니다.
LNS는 각 앰프마다 자기 순번에 맞춰 볼륨을 자동으로 내려 주는 스마트 리미터를 달아준 셈입니다. 100번째 앰프는 수준으로 출력을 눌러 주고, 이 덕분에 마지막 단까지도 원음이 살아남아 모든 앰프가 제 역할을 하게 됩니다.