命令行 AI 性能基准 Terminal-Bench 2.0 发布，GPT-5.2 胜率居首研究人员于 2026 年 1 月 17 日发布 Terminal-Bench 2.0，这是一个评估 AI 智能体在命令行界面执行复杂任务的硬基准

命令行 AI 性能基准 Terminal-Bench 2.0 发布，GPT-5.2 胜率居首

研究人员于 2026 年 1 月 17 日发布 Terminal-Bench 2.0，这是一个评估 AI 智能体在命令行界面执行复杂任务的硬基准。该测试包含 89 个源自真实工作流的任务，涵盖软件工程与网络安全等领域。测试显示，当前顶尖模型胜率均低于 65%。其中，GPT-5.2 配合 Codex CLI 取得 63% 的最高分，Claude Opus 4.5 与 Gemini 3 Pro 紧随其后。研究指出，执行错误是导致失败的主因，且模型性能与 Token 消耗量并无显著正相关。

Arxiv

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel