基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍via AI新闻资讯 (author: AI Base) | ChatGPT / AI新闻聚合

09:43 · 2026年3月12日 · 周四

基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍

via AI新闻资讯 (author: AI Base)

基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍

研究机构 METR 最新发布的一项研究显示，被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现，在基准测试中被判定为“通过”的 AI 代码解决方案中，大约一半在实际项目维护者审核时会被拒绝，这意味着自动化评测结果与真实工程质量之间存在明显差距。 SWE-bench Verified 长期被视为 AI 辅助软件工程的重要评估标准之一，用于测试模型是否能够解决开源项目中的真实编程问题，并通过自动化测试验证代码修改是否通过项目测试套件。包括…

免费GPT聊天

Best AI API中转2.8折起

Best AI 服务状态

Powered by BroadcastChannel & Sepia

Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
 [email protected]