OpenAI o3 模型测试成绩不符预期，透明度问题引发关注OpenAI 此前声称其 o3 模型在高难度数学数据集 FrontierMath 上的正确率超过 25%，大幅领先其他模型的 2%

OpenAI o3 模型测试成绩不符预期，透明度问题引发关注

OpenAI 此前声称其 o3 模型在高难度数学数据集 FrontierMath 上的正确率超过 25%，大幅领先其他模型的 2%。然而，独立机构 Epoch 最近公布的测试显示，该模型的实际正确率仅约 10%。外界怀疑 OpenAI 此前引用的是资源更强大、尚未公开的模型版本，且测试所用的 FrontierMath 版本可能与第三方不同。ARC Prize 也指出，公开发布的 o3 模型是为聊天用途优化的变体，计算层级小于早期评测版本。

尽管 OpenAI 表示将在未来几周发布更强版本的 o3-pro，并已推出性能更优的 o3-mini-high 和 o4-mini 模型，此事件仍引发业内对 AI 模型基准测试可信度的担忧。随着 AI 厂商竞相发布新产品，夸大或误导性测试结果的争议频发。今年以来，xAI 和 Meta 也因模型测试与实际表现不符受到质疑，呼吁提高评估公开性与标准化的声音持续升高。

TechCrunch

📮投稿 ☘️频道 🌸聊天

via 科技圈🎗在花频道📮 - Telegram Channel