🤖 北大与 DeepSeek 联合开源 DSpark，大模型推理速度提升 60% 至 85%大模型生成文本时逐 token 串行计算，推理延迟随输出长度线性增长，这是 AI 对话偏慢的核心原因

🤖 北大与 DeepSeek 联合开源 DSpark，大模型推理速度提升 60% 至 85%

大模型生成文本时逐 token 串行计算，推理延迟随输出长度线性增长，这是 AI 对话偏慢的核心原因。6 月 27 日，DeepSeek 联合北京大学发布 DSpark 推理加速框架，通过半自回归候选生成与置信度调度验证两项机制，在同等吞吐量下将单用户生成速度提升 60% 至 85%。

DSpark 的并行主干一次性产出全部候选 token 的隐藏状态，再由轻量顺序模块逐 token 注入前缀依赖，兼顾了并行效率与候选接受率；调度器则根据置信度动态决定验证长度，优先把算力分配给高存活概率的 token。该框架已部署于 DeepSeek-V4-Flash 与 V4-Pro 预览版，不同 SLA 条件下生产环境吞吐量提升显著，目前相关代码与模型已在 GitHub 和 Hugging Face 开源。

GitHub | Hugging Face | IT之家

🌸 在花频道 · 茶馆水群 · 投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel