💻 Terminal-Bench 2.0 发布:GPT-5.2 在命令行 AI 基准测试中领跑
研究人员于 2026 年 1 月 17 日发布了命令行 AI 性能基准 Terminal-Bench 2.0,旨在评估 AI 智能体在命令行界面执行复杂任务的能力。该基准包含 89 个源自软件工程与网络安全等真实工作流的任务。测试结果显示,当前顶尖模型的胜率均低于 65%。其中,GPT-5.2 配合 Codex CLI 以 63% 的胜率位居榜首,Claude Opus 4.5 与 Gemini 3 Pro 紧随其后。研究指出,执行错误是导致任务失败的主要原因,且模型性能与 Token 消耗量之间并无显著正相关关系。
(科技圈)
via 茶馆 - Telegram Channel
研究人员于 2026 年 1 月 17 日发布了命令行 AI 性能基准 Terminal-Bench 2.0,旨在评估 AI 智能体在命令行界面执行复杂任务的能力。该基准包含 89 个源自软件工程与网络安全等真实工作流的任务。测试结果显示,当前顶尖模型的胜率均低于 65%。其中,GPT-5.2 配合 Codex CLI 以 63% 的胜率位居榜首,Claude Opus 4.5 与 Gemini 3 Pro 紧随其后。研究指出,执行错误是导致任务失败的主要原因,且模型性能与 Token 消耗量之间并无显著正相关关系。
(科技圈)
via 茶馆 - Telegram Channel