GPT-5编程成绩有猫腻自删23道测试题关键基准还是自己提的via cnBeta.COM - 中文业界资讯站 (author: 稿源：量子位) | ChatGPT / AI新闻聚合

15:21 · 2025年8月12日 · 周二

GPT-5编程成绩有猫腻自删23道测试题关键基准还是自己提的

via cnBeta.COM - 中文业界资讯站 (author: 稿源：量子位)

GPT-5编程成绩有猫腻自删23道测试题关键基准还是自己提的

别急着用GPT-5编程了，可能它能力没有你想象中那么强。有人发现，官方测试编程能力用的SWE-bench Verified，但货不对板，只用了477个问题。什么意思呢？我们知道，SWE-bench是评估模型/智能体自主编程能力的一个通用且常用的指标。而SWE-bench Verified作为它的子集，本来一共有500个问题。现在相当于OpenAI自行省略的那23个问题，自己搞了个子集的“子集”来评估模型能力。而如果这些题默认零分，那么得分实际上是比Claude Opus 4.1还要低的。因为现在仅有0.4%的差距。…

免费GPT聊天

Best AI API中转2.8折起

Best AI 服务状态

Powered by BroadcastChannel & Sepia

Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
 [email protected]