Chapter 1: PolarQuant: Quantizing KV Caches with Polar Transformation

在长上下文 LLM 服务里，真正先爆掉的往往不是参数，而是 KV cache 内存。PolarQuant 直接瞄准这个瓶颈：先做随机预处理，再把向量改写成极坐标形式，把角度紧凑地存下来，从而少背那种 「如何把短码还原成原数」的附加信息。本文会从公式、直觉和工程意义三条线把它讲清楚。

PDF查看原论文 PDF

r

2^4=16

S

\pi/4

S

[结论与局限] 实践价值 1. 它打破了“量化一定要保存正则化元数据”的惯性思路。 2. 它直接命中长上下文服务最痛的内存热点。 3. 它不改 attention 结构，只改 cache 表示方式。 局限 - codebook 构造仍有进一步解析化改进空间。 - 是否能同样有效迁移到权重或 activation 量化，还需要更多证据。 - 真正部署时仍依赖高效 kernel、packing 和工程实现。

45^\circ

KV 存储对照

传统：每块 FP16 元数据叠加；PolarQuant：半径与角度。

分块量化

PolarQuant

图中符号怎么读

FP16: 半精度浮点数（16 位）。比特数约为 FP32 的一半，同样多格子大致省一半显存，但刻度略粗。
量化: 把连续实数 映射成很短的整数码 以省空间；使用时要 反量化，且常需 按块说明范围的辅助数。
KV: 保存过去 token 的 Key/Value 向量的一整块缓存。
INT4: 把数值压成 4 位整数；要还原通常还需要额外信息。
+meta / FP16: 把短码还原到可用尺度所需的 额外数字；通常 高精度（如 FP16） 另存。
× N: 块越多，这类元数据大致也要跟存 N 份。
S: 随机混洗坐标的预处理矩阵，便于后面做极坐标变换。
r: 极坐标里的半径，即向量整体长度。
θ: 角度（方向）。往往用码本序号存，而不是完整浮点。
codebook: 常见角度的候选表，只存索引就能省比特。

PolarQuant 的优雅之处在于它换了一个坐标系来处理问题。与其在原始坐标上硬做裁剪，不如先把向量拆成长度与方向，再利用角度集中现象去压缩。对于真正受 KV cache 限制的系统，这比单纯谈参数量更有现实价值。

Chapter 1: PolarQuant: Quantizing KV Caches with Polar Transformation

PDF查看原论文 PDF

符号

含义

x

待量化的 KV 向量

d

原维度

S

随机预处理（草图）矩阵

m

草图后维度

I_m

m

维单位阵

\|x\|_2

欧氏范数