Qwen 发布 Qwen3-Next-80B-A3B:80B 总参、3B 激活,长上下文与效率优化

Qwen 团队推出新模型 Qwen3-Next-80B-A3B,采用 80B 总参数、3B 激活 的超稀疏 MoE 架构(512 专家,路由 10 个+1 共享),结合 Hybrid Attention(Gated DeltaNet + Gated Attention) 与 多 Token 预测(MTP)。模型原生支持 262K 上下文,官方称可外推至约 101 万 tokens。

据介绍,该模型在 >32K 上下文 场景下推理吞吐较 Qwen3-32B 提升约 10 倍,预训练总成本约为其 10%。性能方面,Instruct 版在若干评测中接近 Qwen3-235B,Thinking 版在部分推理任务上超过 Gemini-2.5-Flash-Thinking。

其突破点在于同时实现了 大规模参数容量、低激活开销、长上下文处理与并行推理加速,在同类架构中具有一定代表性。

模型权重已在 Hugging Face 以 Apache-2.0 许可发布,并可通过 Transformers、SGLang、vLLM 等框架部署;第三方平台 OpenRouter 亦已上线。

Hybrid Attention 中的 Gated DeltaNet 源自近年的线性注意力/状态空间研究,强调以门控 + delta 规则改进长程记忆与长度外推能力,是本次 Next 架构的关键之一

huggingface
chat.qwen.ai

via LoopDNS资讯播报 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]