ChatGPT / AI新闻聚合

OpenAI 的 o3 AI 模型在基准测试中的表现低于宣传描述OpenAI 首席研究官 Mark Chen在直播中表示：“目前，所有产品在 FrontierMath 上的得分都不到 2%。我们内部看到，在激进的测试时间计算设置下，o3 的得分能够超过 25%。”事实证明，这个数字很可能是一个上限，由 o3 的一个版本实现，其背后的计算能力比 OpenAI 上周公开发布的模型更强。FrontierMath 背后的研究机构 Epoch AI 周五公布了其对 o3 的独立基准测试结果。Epoch 发现 o3…