↩️🖼 Apple论文：大型推理模型的“思维”可能只是“幻象”科技圈🎗在花频道📮:苹果研究员质疑大语言模型（LLM）的推理能力，认为其仅是复杂的模式匹配苹果研究员Mehrdad Farajtabar等人发表的论文对大型语言模型（LLM）的推理能力提出质疑，认为LLM所谓的“推理”能力实际上只是复杂的模式匹配，并非真正的逻辑推理

↩️🖼 Apple论文：大型推理模型的“思维”可能只是“幻象”

科技圈🎗在花频道📮:

苹果研究员质疑大语言模型（LLM）的推理能力，认为其仅是复杂的模式匹配苹果研究员Mehrdad Farajtabar等人发表的论文对大型语言模型（LLM）的推理能力提出质疑，认为LLM所谓的“推理”能力实际上只是复杂的模式匹配，并非真正的逻辑推理。研究团队开发了GSM-Symbolic工具，基于GSM8K测试集生成符号模板，发现目前的LLM如Llama、Phi、Gemma、Mistral 等开源模型，以及 GPT-4o 和 o1 系列等闭源模型对专有名词和数字的更改非常敏感，显示出对数学概念理解的不足…

Apple论文：大型推理模型的“思维”可能只是“幻象”

Apple最新研究探讨了大型语言模型（LLMs）中的“大型推理模型”（LRMs）。尽管它们在推理任务上展现出优势，但其根本能力与局限仍未充分理解。研究引入具可控复杂度的逻辑谜题环境，深入分析LRMs的推理路径与行为模式，为理解其能力极限提供关键洞察，并提出对其真正“推理能力”的质疑。

实验表明，LRMs在复杂度达到某一阈值后，准确率完全崩溃，且其推理努力呈现先增后减的非线性趋势，尽管计算资源充足。与标准LLMs对比下，研究发现：在简单任务中传统模型反超；中等任务中LRMs具优势；复杂任务中两者均失效。此外，LRMs在精确计算与一致性推理方面存在明显短板，无法有效调用明确算法。

Apple机器学习研究（英文）

📮投稿 ☘️频道

via 科技圈🎗在花频道📮 - Telegram Channel