ChatGPT / AI新闻聚合
3 小时前
基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍
via
AI新闻资讯
(author: AI Base)
Telegraph
基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍
研究机构 METR 最新发布的一项研究显示,被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现,在基准测试中被判定为“通过”的 AI 代码解决方案中,大约一半在实际项目维护者审核时会被拒绝,这意味着自动化评测结果与真实工程质量之间存在明显差距。 SWE-bench Verified 长期被视为 AI 辅助软件工程的重要评估标准之一,用于测试模型是否能够解决开源项目中的真实编程问题,并通过自动化测试验证代码修改是否通过项目测试套件。包括…
Home
Tags
免费GPT聊天
Best AI API中转2.8折起
Best AI 服务状态
电报频道
Powered by
BroadcastChannel
&
Sepia
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]