🤖 阿里巴巴发布 Qwen3-Next 大模型，推理效率提升超 10 倍阿里巴巴 Qwen 团队发布全新架构的 Qwen3-Next-80B-A3B 大模型，采用混合注意力机制和超稀疏专家混合结构

🤖 阿里巴巴发布 Qwen3-Next 大模型，推理效率提升超 10 倍

阿里巴巴 Qwen 团队发布全新架构的 Qwen3-Next-80B-A3B 大模型，采用混合注意力机制和超稀疏专家混合结构。该模型拥有 800 亿参数，但推理时仅激活 30 亿参数，性能媲美 Qwen3-32B 密集模型，训练成本却不到其 10%。

在长文本处理方面，Qwen3-Next 在超过 32K token 的上下文中推理速度比 Qwen3-32B 快 10 倍以上，原生支持最长 256K token 上下文。团队同时发布了指令版和思维版两个后训练模型，其中思维版在复杂推理任务上超越了 Gemini-2.5-Flash-Thinking 等闭源模型。

Qwen

🍀在花频道 🍵茶馆 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel