ChatGPT / AI新闻聚合
2 天前
GPT-5编程成绩有猫腻 自删23道测试题 关键基准还是自己提的
via
cnBeta.COM - 中文业界资讯站
(author: 稿源:量子位)
Telegraph
GPT-5编程成绩有猫腻 自删23道测试题 关键基准还是自己提的
别急着用GPT-5编程了,可能它能力没有你想象中那么强。有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。什么意思呢?我们知道,SWE-bench是评估模型/智能体自主编程能力的一个通用且常用的指标。而SWE-bench Verified作为它的子集,本来一共有500个问题。 现在相当于OpenAI自行省略的那23个问题,自己搞了个子集的“子集”来评估模型能力。 而如果这些题默认零分,那么得分实际上是比Claude Opus 4.1还要低的。因为现在仅有0.4%的差距。…
Home
Tags
免费GPT聊天
Best AI API中转2.8折起
Best AI 服务状态
电报频道
Powered by
BroadcastChannel
&
Sepia
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]