Chapter 1: PolarQuant: Quantizing KV Caches with Polar Transformation

긴 컨텍스트 LLM의 병목은 종종 파라미터가 아니라 KV 캐시 메모리입니다. PolarQuant는 이 병목을 정면으로 겨냥해, 랜덤 전처리 후 벡터를 극좌표계로 바꾸고 각도만 짧게 저장함으로써, 예전 방식처럼 “원래 숫자로 되돌리는 부가 정보”를 계속 달고 다니는 부담을 크게 줄입니다. 이 글은 논문의 정리와 수식을 천천히 풀어, 왜 각도 분포가

\pi/4

근방에 몰리고 왜 그 덕분에 초저비트 양자화가 가능한지를 실무 관점까지 연결해 설명합니다.

PDF원문 논문 PDF 보기

r

2^4=16

S

\pi/4

S

[결론 및 한계점] 최종 의의 및 실무 활용 가치 1. PolarQuant는 "양자화하려면 정규화 메타데이터를 반드시 저장해야 한다"는 통념을 깨고, 극좌표 각도 양자화 라는 다른 좌표계를 제안했습니다. 2. 긴 컨텍스트 서빙에서 가장 아픈 부분인 KV 캐시 메모리를 직접 겨냥하므로, 실제 서비스 비용과 최대 문맥 길이에 곧바로 영향을 줍니다. 3. 어텐션 수식을 갈아엎지 않고 캐시 표현만 바꾸기 때문에, 추론 시스템 최적화 파이프라인에 현실적으로 끼워 넣기 좋습니다. 한계점 (Future Work) - 코드북 생성은 아직 K-means류 절차에 기대는 부분이 있어, 분포식을 직접 활용하는 더 빠른 closed-form 설계가 남아 있습니다. - 논문의 강점은 장문맥 KV 캐시에 최적화되어 있으므로, 가중치 양자화나 activation 양자화로 그대로 일반화하려면 추가 검증이 필요합니다. - 랜덤 전처리와 복원 커널을 실제 서비스 스택에 넣을 때는 CUDA kernel 최적화, packing layout, batch별 병렬화 전략이 성능을 크게 좌우할 수 있습니다.

45^\circ

KV 저장 흐름 비교

기존은 블록마다 FP16 메타가 누적되고, PolarQuant는 r·각도로 정리합니다.

블록 양자화

PolarQuant

도표 기호, 이렇게 읽으면 됩니다

FP16: 반정밀도 부동소수점(16비트). FP32보다 비트가 절반이라 같은 개수를 넣으면 메모리도 대략 절반, 다만 표현 눈금은 조금 거칠 수 있습니다.
양자화: 연속 실수를 아주 짧은 정수 코드로 맞춰 저장하는 일입니다. 나중에 쓰려면 복원(역양자화)과, 블록마다 범위를 알려 주는 보조 숫자가 필요할 때가 많습니다.
KV: 이전 토큰의 Key·Value를 담아 둔 캐시 벡터 한 덩어리입니다.
INT4: 숫자를 아주 짧게(4비트)만 적어 둔 값입니다. 그대로는 쓰기 어려워 보조 정보가 필요합니다.
+meta / FP16: 짧게 적어 둔 숫자를 원래 크기로 되돌리기 위해 붙이는 추가 숫자들. 보통 정밀한 형식(예: FP16)으로 따로 저장됩니다.
× N: 블록이 N개면 메타데이터도 비슷하게 N번 반복된다는 뜻입니다.
S: 벡터 좌표를 한 번 섞어 주는 랜덤 전처리 행렬입니다. 이후 극좌표로 바꾸기 쉽게 만듭니다.
r: 극좌표에서 반지름, 즉 벡터 전체의 크기(길이)입니다.
θ: 각도, 즉 방향입니다. 긴 실수 대신 코드북에서 몇 번째인지만 저장합니다.
codebook: 자주 나오는 각도 후보를 적어 둔 표입니다. 팔레트 번호만 저장해 비트를 아낍니다.

PolarQuant의 아름다움은 문제를 다른 좌표계로 옮겼다 는 데 있습니다. 기존 방법이 좌표축 위 숫자를 억지로 잘랐다면, PolarQuant는 랜덤 전처리로 분포를 정리한 뒤 길이와 방향으로 나누어 저장합니다. 그래서 정규화 오버헤드를 없애고도 장문맥 품질을 지키며, KV 캐시가 진짜 병목인 환경에서 특히 큰 가치를 냅니다.

기호	뜻
$x$	양자화하려는 원본 KV 벡터 (한 토큰·한 헤드에서 나온 $d$ 차원 벡터)
$d$	원본 차원 (hidden size / head dim 등)
$S$	무작위 전처리 행렬. 논문의 전제에 맞게 적절히 뽑힌 행렬
$m$	스케치 후 차원 ( $Sx$ 의 길이)
$I_m$	$m \times m$ 항등행렬. 대각선이 1, 나머지 0
$\\|x\\|_2$	유클리디안 노름 $\sqrt{\sum_k x_k^2}$ , 즉 벡터의 "전체 세기"
$\mathcal{N}(0, \sigma^2 I_m)$	평균 벡터 0, 공분산이 $\sigma^2 I_m$ 인 다변량 정규분포

기호	뜻
$\psi_j^{(1)}$	레벨 1에서의 $j$ 번째 각도
$x_{2j-1}, x_{2j}$	벡터 $x$ 의 $(2j-1)$ 번째, $2j$ 번째 좌표
$\tan^{-1}$	아크탄젠트. $(x_{2j-1}, x_{2j})$ 평면에서의 방향각

기호	뜻
$\psi_j^{(\ell)}$	레벨 $\ell$ 에서의 $j$ 번째 각도
$\\|x_{a:b}\\|_2$	인덱스 $a$ 부터 $b$ 까지 부분 벡터의 유클리디안 노름
분자	뒤쪽 절반 묶음의 노름
분모	앞쪽 절반 묶음의 노름
$\ell$	트리를 위로 올라갈수록 묶음이 커짐 (2개씩 → 4개씩 → …)

기호	뜻
$f_{R,\Psi_d}$	반지름 $r$ 과 모든 각도 $\psi_d(x)$ 의 동시 밀도
$f_R(r)$	반지름만 뽑았을 때의 밀도 (길이 분포)
$f_{\Psi^{(\ell)}}$	레벨 $\ell$ 에서의 각도들의 밀도
$\prod_{\ell=1}^{\log_2 d}$	레벨 1부터 $\log_2 d$ 까지 곱

기호	뜻
$\Gamma(\cdot)$	감마 함수. 계승을 연속으로 확장한 함수
$\sin^{2^{\ell-1}-1}(2\psi)$	$\sin(2\psi)$ 를 $2^{\ell-1}-1$ 번 곱한 것
$\psi_i^{(\ell)}$	레벨 $\ell$ 의 $i$ 번째 각도

기호	뜻
$\mathbb{E}_{\psi \sim f_{\ell}}$	$\psi$ 가 밀도 $f_{\ell}$ 을 따를 때의 기대값
$b$	각도 하나에 쓰는 비트 수 (구간 개수 $2^b$ )
$I_j^{(\ell)}$	레벨 $\ell$ 에서 $j$ 번째 구간
$\theta_j^{(\ell)}$	그 구간의 대표값 (centroid, 코드북 항목)

기호	뜻
$x'$	복원된 근사 벡터
$\\|x - x'\\|_2^2$	좌표별 차이를 제곱해 더한 값 (MSE 성격)
$\varepsilon$	상대 오차 수준 (무차원 작은 수)

기호	뜻
$x_i$	복원 벡터의 $i$ 번째 좌표
$\mathbf{1}\{\cdot\}$	조건이 참이면 1, 아니면 0 (지시함수)
$i \bmod 2^{\ell}$	$i$ 를 $2^{\ell}$ 로 나눈 나머지
$\lfloor i / 2^{\ell} \rfloor$	$i$ 를 $2^{\ell}$ 로 나눈 몫 (어느 블록의 각도를 쓸지)

기호	뜻
$\hat{K}_{:i}$	복원 KV 캐시에서 $i$ 번째 토큰에 해당하는 Key (열 벡터)
$q_i$	현재 토큰의 쿼리 벡터
$d$	스케일링에 쓰이는 차원 (보통 head dim)
$\hat{V}_{:i}$	복원된 Value 쪽 기여