🖥️ OpenAI 发布 SWE-bench Verified,用于增强 AI 模型评估

2024 年 8 月 13 日,OpenAI 推出了 SWE-bench Verified,这是对原始 SWE-bench 基准的改进子集,旨在更准确地评估 AI 模型解决现实世界软件问题的能力。这个新版本包含 500 个经过人工验证的样本,解决了任务清晰度和评估准确性方面的先前不足。

验证过程中的关键发现表明,68.3% 的原始 SWE-bench 样本由于问题陈述不明确或不公平的单元测试等问题而被过滤掉。更新后的基准允许 GPT-4o 解决 33.2% 的任务,显著提高了其在原始套件中 16% 的先前得分。

该开发涉及与 93 名专业开发人员 的合作,他们对总共 1,699 个随机样本 进行了标注,通过严格的筛选流程确保了高质量的评估。此外,改进还包括使用容器化的 Docker 环境来构建可靠的测试环境。

这项举措是 OpenAI 更广泛的准备框架的一部分,旨在增强模型自主性评估,同时解决评估复杂软件工程任务中固有的挑战。

(@OpenAI)

via 老裕泰 - Telegram Channel
 
 
Back to Top