Google提出TurboQuant方法，显著降低LLM的KV缓存与向量搜索内存占用

谷歌研究团队发布TurboQuant，将该量化方法应用于大语言模型的KV缓存与向量搜索压缩。该研究旨在解决高维向量在推理与检索过程中占用大量内存，进而推高缓存与相似度搜索成本的问题。

TurboQuant并非单一量化步骤，谷歌将其拆分为两个关键组件：PolarQuant负责主要压缩，再使用1位的量化Johnson-Lindenstrauss（QJL）处理第一阶段残留的误差，以降低低比特量化后内积估算的偏差。目前，TurboQuant作为ICLR 2026海报论文，PolarQuant作为AISTATS 2026海报论文，QJL已收录于AAAI 2025论文集。

该研究的技术重点在于减少传统向量量化中常见的额外内存开销。PolarQuant论文摘要指出，该方法通过随机预处理与极坐标变换，避免了额外的归一化步骤，并降低了对数据依赖型量化码本的依赖。QJL则结合Johnson-Lindenstrauss变换与符号位量化，省去了每个数据块都需要额外存储量化常数的做法。若能降低这类存储开销，KV缓存压缩与向量索引构建便有望在相同内存条件下容纳更多数据。

在性能数据上，谷歌指出，TurboQuant在LongBench、Needle In A Haystack等长上下文测试中，可在保持任务性能的同时，将KV缓存内存减少至少6倍。4位版本在H100上计算注意力分数时，相较32位未量化的键值，最高可实现8倍加速。不过，TurboQuant论文摘要表述较为保守，仅指出在每通道3.5位的设置下可维持原有性能，2.5位时则仅有轻微质量下降。在近邻搜索任务中，研究人员称其召回率优于现有的乘积量化方法，且索引时间几乎可降至零。

谷歌表示，TurboQuant这类方法有望缓解Gemini等模型的KV缓存瓶颈，也可应用于大规模语义搜索。

CB科技站

Google提出TurboQuant方法，显著降低LLM的KV缓存与向量搜索内存占用

与本文相关的文章