Ch.04

어텐션 최적화: FlashAttention과 희소 어텐션

N\times N

밀집 vs Flash vs 희소

밀집

밀집: 모든 (i,j) 쌍을 스코어 → 표현력↑,

N

크면 비용·메모리↑.

Flash

타일: 동일 softmax를 타일 단위로 — HBM↔SRAM 왕복↓, 실무 체감 속도↑.

희소

희소: 윈도+소수 글로벌만 허용 → 활성 위치 수↓, 장거리는 설계로 보완.

세 가지 선택 한눈에

N

① Flash: 같은 softmax를 IO-aware로 더 빠르게.

② Sparse: 연결 수 줄이기 — 필요한 장거리를 패턴에 녹이기.

③ Dense: $N^2$ 스케일을 항상 전제로 두기.

④ 실무: OOM → Flash·배치·dtype / 품질 → 글로벌·RAG.

N

수식 쉽게 이해하기 (천천히 4단계)

N

어텐션 최적화: FlashAttention과 희소 어텐션

N^2

왜 중요한지

Q,K,V

어떻게 쓰이는지

K,V

요약

N

문제 풀이를 위한 설명

N

어텐션 최적화: FlashAttention과 희소 어텐션

1. 왜 무거워질까? ( $N^2$ 의 저주)

개념:

\mathrm{softmax}(QK^T/\sqrt{d_k})V

에서 길이

N

이면, 토큰 간 유사도를 담는 점수판(그리드)은 대략

N \times N

입니다. 표 한 칸 한 칸이 곱·합으로 이어지므로,

N

만 조금 늘어도 체감 부담이 훨씬 크게 늘어납니다.

직관적 비유: 10명이 모인 파티에서 서로 빠짐없이 악수하려면 45번이면 되지만, 10,000명이 모이면 무려 5,000만 번이나 악수를 해야 합니다.

실전 문제: 책 한 권이나 긴 코드를 통째로 넣으면 OOM(Out of Memory) 이나 끊기는 응답으로 바로 드러납니다.

꼭 기억: 걱정의 중심은 “모델이 틀렸다”가 아니라 길이·배치가 커질 때 비용 곡선입니다.

2. 플래시 어텐션 (FlashAttention): 책상 위에서 끝내는 계산

개념: 거대 텐서를 느린 HBM과 빠른 SRAM(온칩) 사이에서 되도록 적게 왕복하게 만들고, 타일(작은 덩어리) 단위로 softmax 어텐션을 끝까지 밀어 넣는 커널·구현 기술입니다.

수식: 목표는 그대로

\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

— 중간 텐서를 만드는 순서·장소만 메모리 친화적으로 바꿉니다.

직관적 비유: 도서관 창고를 한 권씩 오가며 업무하면 느립니다. 카트에 묶어 내 책상(SRAM) 위에서 처리하면 왕복 횟수가 줄어듭니다.

특징: 수학적 정의(같은 softmax 어텐션)는 유지하고, 연산 순서·메모리 접근을 바꿉니다. 그래서 동일 결과를 더 빠르게 얻는 쪽에 가깝습니다.

꼭 기억: Flash는 “근사로 바꾼다”가 기본은 아니고 “같은 걸 잘 돌린다”에 가깝습니다.

3. 희소 어텐션 (Sparse Attention): 볼 사람만 본다

개념: 매 query가 모든 key를 보지 않게 하고, 국소 윈도(Local)와 소수의 글로벌 토큰처럼 허용한 자리만 보도록 연결 수

|S_i| \ll N

로 만듭니다.

수식 습관: 로짓

E=QK^T/\sqrt{d_k}

에 대해, 허용 키 집합

S_i

밖의

(i,j)

에

E_{ij}=-\infty

(softmax 전)를 두면

\mathrm{softmax}_j(E_{i:})

의 질량이

S_i

안에만 남습니다. 결국 같은 식이지만 실효 지지 집합만 줄어듭니다.

직관적 비유: 만 명과 전부 악수하지 않고 내 테이블과 주최자 정도만 보는 식으로 에너지(연산)를 아낍니다.

특징: FLOPs·메모리는 크게 줄지만, 멀리 떨어진 증거가 중요한 과제에서는 패턴 실패 시 품질이 떨어질 수 있습니다.

꼭 기억: 희소는 구현만의 문제가 아니라 “무엇을 안 볼지” 설계가 핵심입니다.

4. 두 기술의 결정적 차이

Flash는 Dense와 동일한 출력을 목표로 실행만 빠르게 합니다. 희소는 연결 구조를 바꿔 계산 자체를 줄이며, 완전 동일성은 깨질 수 있습니다.

선택 가이드: OOM·지연이 크면 보통 Flash부터 켜고 측정합니다. 그래도 부담이 크면 희소 패턴·청킹·RAG 등 데이터·태스크에 맞는 조합을 검토합니다.