🧮 普特南数学竞赛揭示大型语言模型推理能力缺陷
一项名为Putnam-AXIOM的新基准测试,使用来自普特南数学竞赛的236道复杂数学题对大型语言模型(LLM)进行了评估。结果显示,即使是像OpenAI的o1-preview这样的顶级模型,其在原始问题上的准确率也仅为41.95%。为了减少数据污染的影响,研究人员还创建了一个变体基准测试。结果显示,当模型面对功能上有所改变但难度相当的问题时,准确率下降了约30%。 这突显了当前LLM在推理能力方面的显著不足以及训练数据偏差的影响。该研究已提交给ICLR 2025(投稿编号:86)。
(HackerNews)
via 茶馆 - Telegram Channel
一项名为Putnam-AXIOM的新基准测试,使用来自普特南数学竞赛的236道复杂数学题对大型语言模型(LLM)进行了评估。结果显示,即使是像OpenAI的o1-preview这样的顶级模型,其在原始问题上的准确率也仅为41.95%。为了减少数据污染的影响,研究人员还创建了一个变体基准测试。结果显示,当模型面对功能上有所改变但难度相当的问题时,准确率下降了约30%。 这突显了当前LLM在推理能力方面的显著不足以及训练数据偏差的影响。该研究已提交给ICLR 2025(投稿编号:86)。
(HackerNews)
via 茶馆 - Telegram Channel