GPT-5编程测试被曝"作弊":自删23道题目美化成绩
有开发者发现,OpenAI在GPT-5编程能力测试中存在"猫腻"。官方声称使用SWE-bench Verified基准测试,但实际只用了477个问题,自行删除了原本500题中的23道。SWE-bench是评估AI模型自主编程能力的通用指标,而GPT-5使用的是"子集的子集"。如果被删除的23题按零分计算,GPT-5的实际得分将低于Claude Opus 4.1,目前两者仅有0.4%的微弱差距。
新浪科技
🍀频道 🍵茶馆 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel
有开发者发现,OpenAI在GPT-5编程能力测试中存在"猫腻"。官方声称使用SWE-bench Verified基准测试,但实际只用了477个问题,自行删除了原本500题中的23道。SWE-bench是评估AI模型自主编程能力的通用指标,而GPT-5使用的是"子集的子集"。如果被删除的23题按零分计算,GPT-5的实际得分将低于Claude Opus 4.1,目前两者仅有0.4%的微弱差距。
新浪科技
🍀频道 🍵茶馆 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel