🤖 Claude 4 发布：编码能力显著提升，Agentic 任务表现更佳Anthropic 发布了 Claude 4，包括 Opus 4 和 Sonnet 4 两个版本，重点提升了编码能力和 Agentic 任务处理

🤖 Claude 4 发布：编码能力显著提升，Agentic 任务表现更佳

Anthropic 发布了 Claude 4，包括 Opus 4 和 Sonnet 4 两个版本，重点提升了编码能力和 Agentic 任务处理。

* 编码能力： Opus 4 在 SWE-bench 上的得分达到 72.5%，Terminal-bench 达到 43.2%，被认为是目前最佳的编码模型。GitHub 将 Sonnet 4 作为 GitHub Copilot 新编码 Agent 的基础模型。
* Agentic 任务： Opus 4 具备更强的工具使用能力，能够在长时间运行的任务中保持专注，并能创建和维护“记忆文件”以存储关键信息，从而提升长期任务的感知能力和连贯性。
* 长文本处理： Opus 4 拥有 200K 上下文窗口，能够处理大量信息。
* 定价： Opus 4 的定价为输入 $15/百万 tokens，输出 $75/百万 tokens；Sonnet 4 的定价为输入 $3/百万 tokens，输出 $15/百万 tokens，与之前的模型保持一致。
* 其他： Claude 4 引入了思维总结功能，用较小的模型来压缩冗长的思考过程，但用户可以通过联系销售获得开发者模式，以保留完整的思维链。知识截止日期为 2025 年 3 月。

(HackerNews)

via 茶馆 - Telegram Channel