🤖 阿里巴巴发布 Qwen3-Next 大模型,推理效率提升超 10 倍
阿里巴巴 Qwen 团队发布全新架构的 Qwen3-Next-80B-A3B 大模型,采用混合注意力机制和超稀疏专家混合结构。该模型拥有 800 亿参数,但推理时仅激活 30 亿参数,性能媲美 Qwen3-32B 密集模型,训练成本却不到其 10%。
在长文本处理方面,Qwen3-Next 在超过 32K token 的上下文中推理速度比 Qwen3-32B 快 10 倍以上,原生支持最长 256K token 上下文。团队同时发布了指令版和思维版两个后训练模型,其中思维版在复杂推理任务上超越了 Gemini-2.5-Flash-Thinking 等闭源模型。
Qwen
🍀在花频道 🍵茶馆 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel
阿里巴巴 Qwen 团队发布全新架构的 Qwen3-Next-80B-A3B 大模型,采用混合注意力机制和超稀疏专家混合结构。该模型拥有 800 亿参数,但推理时仅激活 30 亿参数,性能媲美 Qwen3-32B 密集模型,训练成本却不到其 10%。
在长文本处理方面,Qwen3-Next 在超过 32K token 的上下文中推理速度比 Qwen3-32B 快 10 倍以上,原生支持最长 256K token 上下文。团队同时发布了指令版和思维版两个后训练模型,其中思维版在复杂推理任务上超越了 Gemini-2.5-Flash-Thinking 等闭源模型。
Qwen
🍀在花频道 🍵茶馆 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel