OpenAI 此前声称其 o3 模型在高难度数学数据集 FrontierMath 上的正确率超过 25%,大幅领先其他模型的 2%。然而,独立机构 Epoch 最近公布的测试显示,该模型的实际正确率仅约 10%。外界怀疑 OpenAI 此前引用的是资源更强大、尚未公开的模型版本,且测试所用的 FrontierMath 版本可能与第三方不同。ARC Prize 也指出,公开发布的 o3 模型是为聊天用途优化的变体,计算层级小于早期评测版本。
尽管 OpenAI 表示将在未来几周发布更强版本的 o3-pro,并已推出性能更优的 o3-mini-high 和 o4-mini 模型,此事件仍引发业内对 AI 模型基准测试可信度的担忧。随着 AI 厂商竞相发布新产品,夸大或误导性测试结果的争议频发。今年以来,xAI 和 Meta 也因模型测试与实际表现不符受到质疑,呼吁提高评估公开性与标准化的声音持续升高。
TechCrunch
📮投稿 ☘️频道 🌸聊天
via 科技圈🎗在花频道📮 - Telegram Channel