↩️ OpenAI 的 o3 模型取得突破性进展但经济性欠佳 AGI 基准测试竞赛 Arc Prize 与 OpenAI 合作在 ARC-AGI 基准测试上对新推理模型 o3 进行了测试，其展示了 AI...风向旗参考快讯:OpenAI 发布推理模型 o3 和 o3-mini 周五，在“OpenAI 12天活动”的第12天，首席执行官萨姆·奥尔特曼宣布了其最新的人工智能“推理”模型o3和o3-mini，这两款模型是在今年早些时候推出的o1模型的基础上开发的

↩️ OpenAI 的 o3 模型取得突破性进展但经济性欠佳 AGI 基准测试竞赛 Arc Prize 与 OpenAI 合作在 ARC-AGI 基准测试上对新推理模型 o3 进行了测试，其展示了 AI...

风向旗参考快讯:

OpenAI 发布推理模型 o3 和 o3-mini 周五，在“OpenAI 12天活动”的第12天，首席执行官萨姆·奥尔特曼宣布了其最新的人工智能“推理”模型o3和o3-mini，这两款模型是在今年早些时候推出的o1模型的基础上开发的。该公司尚未发布这些模型，但今天将使这些模型可用于公共安全测试和研究。就像o1一样，o3是一个模型家族，o3-mini是一款更小的精简版模型，专门针对特定任务进行了微调。OpenAI声称，至少在某些条件下，o3可以接近实现AGI。OpenAI总裁Greg Brockman…

OpenAI 的 o3 模型取得突破性进展但经济性欠佳

AGI 基准测试竞赛 Arc Prize 与 OpenAI 合作在 ARC-AGI 基准测试上对新推理模型 o3 进行了测试，其展示了 AI 适应新任务的重大突破。它在低计算模式下的半私有评估中得分为 75.7%，相较于上代模型提升了3倍，在高计算模式下得分为 87.5%，大幅领先于其他受试模型。

然而，这种通用性的成本很高，而且目前还不是很经济：让人类解决 ARC-AGI 任务仅需支付大约每项任务 5 美元的费用，同时仅消耗几美分的能源。而 o3 在低计算模式下每项任务需要 17-20 美元，在高计算模式中每个任务数千美元。此外，仍有相当多的非常简单的 ARC-AGI-1 任务是 o3 即使消耗了数百万 token 也无法解决的，而这些任务对于正常人类并不复杂。

—— Arc Prize

via 风向旗参考快讯 - Telegram Channel