AI 挑战奥数 IMO 2025：仅两款模型给出完整解答，严谨数学推理仍待提高IMO 2025昨日在澳大利亚结束，研究显示当前AI模型在严格数学推理方面仍存在显著局限

AI 挑战奥数 IMO 2025：仅两款模型给出完整解答，严谨数学推理仍待提高

IMO 2025昨日在澳大利亚结束，研究显示当前AI模型在严格数学推理方面仍存在显著局限。

最新评测结果显示，8个主流AI模型在IMO 2025全部6道题目测试中表现有限。Grok 4以3/6的正确率位居首位，但其回答缺乏推理过程。Gemini 2.5 Pro、ByteDance Seed 1.6、Claude Sonnet 4和OpenAI o3-medium均获得2/6成绩。

关键发现：仅有2个模型，Bytedance Seed 1.6和Gemini 2.5 Pro，提供了第5题完整的数学推理过程和解答。其余正确答案多为部分解答，缺乏严格的数学证明。

技术限制：DeepSeek R1因API限制32768个推理tokens而全部失败，反映了基础设施对模型性能的重要影响。

成本分析：ByteDance Seed 1.6凭借中国本土定价优势（1.1美元/百万tokens）成为最具成本效益的选择。

结论：测试结果表明，当前AI模型在复杂数学问题解决方面仍有很大改进空间，获得正确答案与提供完整数学推理之间存在显著差距。

GitHub（完整数据）

🍀频道🍵茶馆📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel