14B打败671B 微软rStar2-Agent在数学推理上超过DeepSeek-R1via cnBeta.COM - 中文业界资讯站 (author: 稿源：机器之心Pro) | ChatGPT / AI新闻聚合

12:03 · 2025年9月2日 · 周二

14B打败671B 微软rStar2-Agent在数学推理上超过DeepSeek-R1

via cnBeta.COM - 中文业界资讯站 (author: 稿源：机器之心Pro)

14B打败671B 微软rStar2-Agent在数学推理上超过DeepSeek-R1

现在，LLM 已经可以获得非常强大的推理能力，而其中关键便是测试时扩展（test-time scaling）通常而言，延长思维链（CoT）就可以延长「思考时间」，从而显著提升性能，尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。然而，对于容易出现细微中间错误或需要创造性推理转变的难题，较长的思维链仍然存在根本性的局限性。在这些情况下，模型往往依赖内部的自我反思，但这又常常无法发现错误，也无法在初始方法存在缺陷时进行自我纠正。因此，模型不仅要能更长时间地思考，还应该要能「更聪明」地思…

免费GPT聊天

Best AI API中转2.8折起

Best AI 服务状态

Powered by BroadcastChannel & Sepia

Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
 [email protected]