谷歌于 2026 年 3 月 25 日发布 TurboQuant 压缩算法,可在不损失模型精度的前提下,将 AI 大模型运行时的关键内存占用(KV 缓存)减少至少 6 倍,同时提升推理速度最高 8 倍。
核心技术速览
| 技术指标 | 具体数据 | 说明 |
|---|---|---|
| 内存压缩比 | 至少 6 倍 | 将 KV 缓存压缩至 3-bit 精度,相比传统 16/32-bit 存储 |
| 推理加速 | 最高 8 倍 | 在 H100 GPU 上 4-bit TurboQuant vs 32-bit 未量化基线 |
| 精度影响 | 零损失 | 在'大海捞针'等长上下文测试中保持完美分数 |
| 部署门槛 | 无需训练 | 无需预训练或微调,即插即用 |
| 应用范围 | KV 缓存压缩 + 向量搜索 | 解决推理内存瓶颈,同时提升语义搜索引擎效率 |
核心技术原理
大模型推理时,会把历史信息临时存在 KV 缓存 中以便快速调用。当上下文窗口从 4K 扩展到百万级时,KV 缓存会迅速膨胀,成为 AI 推理最大的内存瓶颈。
传统压缩方法虽然能把 16-bit 压成 4-bit,但需要额外存储'量化常数',每压一个数还要多占 1-2 个 bit,相当于被收了'手续费'。TurboQuant 的两步法彻底消灭了这笔开销:
第一步:PolarQuant——换坐标系,开销归零
传统量化用笛卡尔坐标系(X、Y、Z 轴),每个轴取值范围不固定,必须额外存归一化参数。TurboQuant 先对数据做一次随机旋转,把坐标转换到极坐标系(距离 + 角度)。
研究发现,旋转后的角度分布高度集中且可预测,完全不需要存储任何归一化常数。就像描述一个位置:传统方法说'向东 3 街区,向北 4 街区';PolarQuant 说'朝 37 度方向走 5 街区'——信息不变,但省掉了坐标系本身的开销。
第二步:QJL——1-bit 纠错,抹平偏差
再精准的压缩也会留误差。更麻烦的是,传统压缩会在高维空间引入系统性偏差——压完后算内积(注意力分数的核心操作)时,结果是偏斜的。
QJL 算法用仅1 个 bit的空间(+1 或 -1)来处理残留误差,配合高精度的 Query 向量做联合计算,在数学上被证明是无偏的——压缩前后的内积期望值严格相等。
两步合璧:3-bit 总预算,信息论意义上的极限压缩,零额外开销。
实测表现与产业影响
跑分全面碾压
谷歌在 Gemma、Mistral 等模型上跑了 LongBench、Needle In A Haystack 等五大长上下文基准测试:
- 大海捞针测试:在 10 万 Token 文本中精准捞出一句特定信息,TurboQuant 的检索精度与全精度模型完全一致,6 倍压缩后该记住的一个字都没丢
- 速度测试:在 H100 GPU 上,4-bit TurboQuant 计算注意力分数的速度比 32-bit 未量化版本快了 8 倍
- 向量搜索:在 GloVe 数据集上击败 PQ 和 RabbiQ 等前沿方法,拿下最优召回率
资本市场的反应
TurboQuant 发布后,存储芯片板块出现波动:美光跌 4%,西部数据跌 4.4%,闪迪暴跌 6.5%。市场解读为长上下文 AI 推理以后不需要那么多高端内存了。
Cloudflare CEO 称其为'谷歌的 DeepSeek 时刻',认为它像 DeepSeek 一样,用更少的资源实现了同等的效果。

