谷歌 TurboQuant 重磅发布：LLM 键值缓存内存压缩 6 倍、速度提升 8 倍，零精度损失、无需训练！via AI新闻资讯 (author: AI Base) | ChatGPT / AI新闻聚合

谷歌 TurboQuant 重磅发布：LLM 键值缓存内存压缩 6 倍、速度提升 8 倍，零精度损失、无需训练！

via AI新闻资讯 (author: AI Base)

谷歌 TurboQuant 重磅发布：LLM 键值缓存内存压缩 6 倍、速度提升 8 倍，零精度损失、无需训练！

3月26日消息，谷歌研究团队（Google Research）近日正式推出全新向量量化压缩算法TurboQuant，通过创新的 PolarQuant 与 QJL 技术，将大语言模型（LLM）推理过程中的 ** 键值缓存(KV Cache)** 内存需求减少至少6倍，在 Nvidia H100GPU 上注意力计算速度提升最高8倍，且在多项长上下文基准测试中实现零精度损失。这一突破性进展有望大幅降低 AI 部署成本，加速长上下文应用落地。

免费GPT聊天

Best AI API中转2.8折起

Best AI 服务状态

Powered by BroadcastChannel & Sepia

Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
 [email protected]