🤖 阿里巴巴发布 Qwen3-Next 大模型,推理效率提升超 10 倍

阿里巴巴 Qwen 团队发布全新架构的 Qwen3-Next-80B-A3B 大模型,采用混合注意力机制和超稀疏专家混合结构。该模型拥有 800 亿参数,但推理时仅激活 30 亿参数,性能媲美 Qwen3-32B 密集模型,训练成本却不到其 10%。

在长文本处理方面,Qwen3-Next 在超过 32K token 的上下文中推理速度比 Qwen3-32B 快 10 倍以上,原生支持最长 256K token 上下文。团队同时发布了指令版和思维版两个后训练模型,其中思维版在复杂推理任务上超越了 Gemini-2.5-Flash-Thinking 等闭源模型。

Qwen

🍀在花频道 🍵茶馆 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]