🤖 阿里巴巴发布 Qwen3-Max-Thinking：性能比肩顶尖模型但受限于审查机制模型性能与技术表现阿里巴巴云推出的 Qwen3-Max-Thinking 在多项基准测试中表现出色，展现出与 GPT-5.2-Thinking、Claude-Opus-4.5 及 Gemini 3 Pro 等顶尖模型竞争的实力

🤖 阿里巴巴发布 Qwen3-Max-Thinking：性能比肩顶尖模型但受限于审查机制

模型性能与技术表现
阿里巴巴云推出的 Qwen3-Max-Thinking 在多项基准测试中表现出色，展现出与 GPT-5.2-Thinking、Claude-Opus-4.5 及 Gemini 3 Pro 等顶尖模型竞争的实力。根据披露的数据，该模型在 ArenaHard v2 测试中获得 90.2 分，在工具辅助搜索（Agentic Search HLE）中达到 49.8 分，均处于行业领先地位。作为 Qwen 系列中的闭源型号，Qwen3-Max 目前主要通过 API 提供服务。技术讨论指出，该模型通过增加推理过程中的 Token 消耗来提升逻辑能力，反映了当前 AI 领域“以计算换智能”的趋势。

审查机制与合规限制
Qwen3-Max 严格执行中国监管机构的审查要求。用户测试显示，涉及 1989 年天安门事件、台湾地位或新疆等敏感话题的查询会直接触发“内容安全警告”或导致连接中断。尽管部分在海外运行的轻量化版本（如 Qwen3-VL-30B）能提供相对客观的史实描述，但 Max 系列作为商业闭源模型，其内置的“思考”过程显示，模型被训练为在处理敏感话题时保持中立且模糊，以避免违反相关政策。

全球 AI 竞争与对齐差异
在与西方模型的对比中，讨论聚焦于“政治审查”与“安全对齐”的区别。虽然 ChatGPT 等美国模型也会因法律风险或防止幻觉而屏蔽特定人名（如 Jonathan Turley），但用户指出，美国模型通常允许讨论本国政府的负面历史，而中国模型则完全回避此类内容。目前，中国顶尖模型被认为落后美国前沿水平约 6 至 9 个月，其快速追赶的部分原因在于利用美国模型的输出进行蒸馏训练。

硬件需求与本地部署
针对开发者关心的本地运行问题，讨论指出在 M3 Pro（18GB 内存）等消费级硬件上难以达到前沿模型的编码质量。目前本地部署的最佳选择包括 Qwen3-Coder:30B 等模型，但其性能与托管在云端的顶级模型仍有显著差距。此外，由于算力限制，中国公司在模型架构创新之外，正更多地依赖算法优化和指令微调来提升效率。

(HackerNews)

via 茶馆 - Telegram Channel