ChatGPT / AI新闻聚合
4 天前
14B打败671B 微软rStar2-Agent在数学推理上超过DeepSeek-R1
via
cnBeta.COM - 中文业界资讯站
(author: 稿源:机器之心Pro)
Telegraph
14B打败671B 微软rStar2-Agent在数学推理上超过DeepSeek-R1
现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是测试时扩展(test-time scaling)通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。 然而,对于容易出现细微中间错误或需要创造性推理转变的难题,较长的思维链仍然存在根本性的局限性。在这些情况下,模型往往依赖内部的自我反思,但这又常常无法发现错误,也无法在初始方法存在缺陷时进行自我纠正。 因此,模型不仅要能更长时间地思考,还应该要能「更聪明」地思…
Home
Tags
免费GPT聊天
Best AI API中转2.8折起
Best AI 服务状态
电报频道
Powered by
BroadcastChannel
&
Sepia
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]