Chapter 1: PolarQuant: Quantizing KV Caches with Polar Transformation

長文脈 LLM の実運用では、重みより KV キャッシュ が先にメモリを圧迫することがよくあります。PolarQuant はランダム前処理のあとでベクトルを極座標に移し、角度をコンパクトに保存することで、従来のように 「元の数値に戻すための付け足し情報」 を抱え続ける負担を大きく減らします。このレビューでは、なぜ角度分布が

\pi/4

近傍に集中し、その性質がなぜ超低ビット量子化を可能にするのかを数式と直感で説明します。

PDF原論文 PDF を開く

r

2^4=16

S

\pi/4

S

[結論と限界] 実務的な意義 1. 正規化メタデータが必須という発想を崩した。 2. 長文脈サービングのメモリ痛点を直接狙っている。 3. attention 自体は変えず、キャッシュ表現だけを変える。 限界 - コードブック構成にはまだ改良余地がある。 - 重みや activation への一般化には追加検証が必要。 - 実運用では CUDA kernel や packing 最適化が重要になる。

45^\circ

KV 保存の対比

従来はブロックごとに FP16 メタが積み上がり、PolarQuant は r と角度にまとめます。

ブロック量子化

PolarQuant

図の記号の読み方

FP16: 半精度の浮動小数（16 ビット）。FP32 の半分のビットなので同じ個数ならメモリもおおよそ半分ですが、目盛りはやや粗くなります。
量子化: 連続的な実数を 短い整数コード に丸めて保存すること。利用時は 逆量子化し、ブロックごとに 範囲を伝える補助数字 が要ることが多いです。
KV: 過去トークンの Key/Value を載せたキャッシュベクトルの塊です。
INT4: 数値を 4 ビットに圧縮した値。そのままでは使いにくく、補助情報が要ります。
+meta / FP16: 短くした数値を元のレンジに戻すために付ける 追加の数字。たいてい 高精度（例: FP16） で別に保存されます。
× N: ブロックが N 個あると、メタもだいたい N 回分かさばるイメージです。
S: 座標を混ぜるランダム前処理行列。極座標へ移しやすい分布にします。
r: 極座標の半径＝ベクトル全体の大きさです。
θ: 角度（向き）。実数全部ではなくコードブック番号として保存します。
codebook: よく出る角度の候補を並べた表。インデックスだけでビットを節約します。

PolarQuant の美しさは、問題を別の座標系へ移した点にあります。生の座標を無理に削る代わりに、長さと方向へ分けて保存することで、KV キャッシュが支配的な環境で大きな価値を持ちます。

Chapter 1: PolarQuant: Quantizing KV Caches with Polar Transformation

\pi/4

近傍に集中し、その性質がなぜ超低ビット量子化を可能にするのかを数式と直感で説明します。

PDF原論文 PDF を開く

記号

意味

x

量子化したい元の KV ベクトル

d

元の次元

S

ランダム前処理行列

m

スケッチ後の次元

I_m

m

次元単位行列

\|x\|_2

ユークリッドノルム（ベクトルの「大きさ」）