谷歌研究团队发布TurboQuant,将该量化方法应用于大语言模型的KV缓存与向量搜索压缩。该研究旨在解决高维向量在推理与检索过程中占用大量内存,进而推高缓存与相似度搜索成本的问题。
TurboQuant并非单一量化步骤,谷歌将其拆分为两个关键组件:PolarQuant负责主要压缩,再使用1位的量化Johnson-Lindenstrauss(QJL)处理第一阶段残留的误差,以降低低比特量化后内积估算的偏差。目前,TurboQuant作为ICLR 2026海报论文,PolarQuant作为AISTATS 2026海报论文,QJL已收录于AAAI 2025论文集。
该研究的技术重点在于减少传统向量量化中常见的额外内存开销。PolarQuant论文摘要指出,该方法通过随机预处理与极坐标变换,避免了额外的归一化步骤,并降低了对数据依赖型量化码本的依赖。QJL则结合Johnson-Lindenstrauss变换与符号位量化,省去了每个数据块都需要额外存储量化常数的做法。若能降低这类存储开销,KV缓存压缩与向量索引构建便有望在相同内存条件下容纳更多数据。
在性能数据上,谷歌指出,TurboQuant在LongBench、Needle In A Haystack等长上下文测试中,可在保持任务性能的同时,将KV缓存内存减少至少6倍。4位版本在H100上计算注意力分数时,相较32位未量化的键值,最高可实现8倍加速。不过,TurboQuant论文摘要表述较为保守,仅指出在每通道3.5位的设置下可维持原有性能,2.5位时则仅有轻微质量下降。在近邻搜索任务中,研究人员称其召回率优于现有的乘积量化方法,且索引时间几乎可降至零。
谷歌表示,TurboQuant这类方法有望缓解Gemini等模型的KV缓存瓶颈,也可应用于大规模语义搜索。