ChatGPT / AI新闻聚合
7 小时前
谷歌 TurboQuant 重磅发布:LLM 键值缓存内存压缩 6 倍、速度提升 8 倍,零精度损失、无需训练!
via
AI新闻资讯
(author: AI Base)
Telegraph
谷歌 TurboQuant 重磅发布:LLM 键值缓存内存压缩 6 倍、速度提升 8 倍,零精度损失、无需训练!
3月26日消息,谷歌研究团队(Google Research)近日正式推出全新向量量化压缩算法TurboQuant,通过创新的 PolarQuant 与 QJL 技术,将大语言模型(LLM)推理过程中的 ** 键值缓存(KV Cache)** 内存需求减少至少6倍,在 Nvidia H100GPU 上注意力计算速度提升最高8倍,且在多项长上下文基准测试中实现零精度损失。这一突破性进展有望大幅降低 AI 部署成本,加速长上下文应用落地。
Home
Tags
免费GPT聊天
Best AI API中转2.8折起
Best AI 服务状态
电报频道
Powered by
BroadcastChannel
&
Sepia
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]