AI 挑战奥数 IMO 2025:仅两款模型给出完整解答,严谨数学推理仍待提高

IMO 2025昨日在澳大利亚结束,研究显示当前AI模型在严格数学推理方面仍存在显著局限。

最新评测结果显示,8个主流AI模型在IMO 2025全部6道题目测试中表现有限。Grok 4以3/6的正确率位居首位,但其回答缺乏推理过程。Gemini 2.5 Pro、ByteDance Seed 1.6、Claude Sonnet 4和OpenAI o3-medium均获得2/6成绩。

关键发现:仅有2个模型,Bytedance Seed 1.6和Gemini 2.5 Pro,提供了第5题完整的数学推理过程和解答。其余正确答案多为部分解答,缺乏严格的数学证明。

技术限制:DeepSeek R1因API限制32768个推理tokens而全部失败,反映了基础设施对模型性能的重要影响。

成本分析:ByteDance Seed 1.6凭借中国本土定价优势(1.1美元/百万tokens)成为最具成本效益的选择。

结论:测试结果表明,当前AI模型在复杂数学问题解决方面仍有很大改进空间,获得正确答案与提供完整数学推理之间存在显著差距。

GitHub(完整数据)

🍀频道🍵茶馆📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]