↩️🖼 Apple论文:大型推理模型的“思维”可能只是“幻象”


科技圈🎗在花频道📮:

苹果研究员质疑大语言模型(LLM)的推理能力,认为其仅是复杂的模式匹配 苹果研究员Mehrdad Farajtabar等人发表的论文对大型语言模型(LLM)的推理能力提出质疑,认为LLM所谓的“推理”能力实际上只是复杂的模式匹配,并非真正的逻辑推理。研究团队开发了GSM-Symbolic工具,基于GSM8K测试集生成符号模板,发现目前的LLM如Llama、Phi、Gemma、Mistral 等开源模型,以及 GPT-4o 和 o1 系列等闭源模型对专有名词和数字的更改非常敏感,显示出对数学概念理解的不足…

Apple论文:大型推理模型的“思维”可能只是“幻象”

Apple最新研究探讨了大型语言模型(LLMs)中的“大型推理模型”(LRMs)。尽管它们在推理任务上展现出优势,但其根本能力与局限仍未充分理解。研究引入具可控复杂度的逻辑谜题环境,深入分析LRMs的推理路径与行为模式,为理解其能力极限提供关键洞察,并提出对其真正“推理能力”的质疑。

实验表明,LRMs在复杂度达到某一阈值后,准确率完全崩溃,且其推理努力呈现先增后减的非线性趋势,尽管计算资源充足。与标准LLMs对比下,研究发现:在简单任务中传统模型反超;中等任务中LRMs具优势;复杂任务中两者均失效。此外,LRMs在精确计算与一致性推理方面存在明显短板,无法有效调用明确算法。

Apple机器学习研究(英文)

📮投稿 ☘️频道

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]