Anthropic 今日发布了 Claude Opus 4.1,这是其旗舰模型 Claude Opus 4 的升级版,主要在代理任务、实际编码和推理能力方面进行了增强。新版本在 SWE-bench Verified 编码性能基准测试中达到了 74.5%,并显著提升了深度研究、数据分析、细节追踪和代理搜索能力。
据 GitHub 称,Opus 4.1 在多文件代码重构方面表现尤为突出。乐天集团(Rakuten Group)发现其在大型代码库中能精确修正错误,而 Windsurf 则报告其在初级开发者基准测试中比 Opus 4 提升了一个标准差。
Claude Opus 4.1 现已向付费 Claude 用户、Claude Code、API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 开放,定价与 Opus 4 保持一致。Anthropic 建议所有用户升级至 Opus 4.1,并预告未来几周将发布更大规模的模型改进。
(HackerNews)
via 茶馆 - Telegram Channel