Qwen 发布 Qwen3-Next-80B-A3B：80B 总参、3B 激活，长上下文与效率优化Qwen 团队推出新模型 Qwen3-Next-80B-A3B，采用 80B 总参数、3B 激活的超稀疏 MoE 架构（512 专家，路由 10 个+1 共享），结合 Hybrid Attention（Gated DeltaNet + Gated Attention）与多 Token 预测（MTP）

Qwen 发布 Qwen3-Next-80B-A3B：80B 总参、3B 激活，长上下文与效率优化

Qwen 团队推出新模型 Qwen3-Next-80B-A3B，采用 80B 总参数、3B 激活的超稀疏 MoE 架构（512 专家，路由 10 个+1 共享），结合 Hybrid Attention（Gated DeltaNet + Gated Attention）与多 Token 预测（MTP）。模型原生支持 262K 上下文，官方称可外推至约 101 万 tokens。

据介绍，该模型在 >32K 上下文场景下推理吞吐较 Qwen3-32B 提升约 10 倍，预训练总成本约为其 10%。性能方面，Instruct 版在若干评测中接近 Qwen3-235B，Thinking 版在部分推理任务上超过 Gemini-2.5-Flash-Thinking。

其突破点在于同时实现了大规模参数容量、低激活开销、长上下文处理与并行推理加速，在同类架构中具有一定代表性。

模型权重已在 Hugging Face 以 Apache-2.0 许可发布，并可通过 Transformers、SGLang、vLLM 等框架部署；第三方平台 OpenRouter 亦已上线。

Hybrid Attention 中的 Gated DeltaNet 源自近年的线性注意力/状态空间研究，强调以门控 + delta 规则改进长程记忆与长度外推能力，是本次 Next 架构的关键之一

huggingface
chat.qwen.ai

via LoopDNS资讯播报 - Telegram Channel