DeepSeek 发表 R1 模型论文,称训练成本仅 29.4 万美元

2025-09-18 22:54 by 星际归途

DeepSeek 的研究人员在《自然》期刊上发表了 R1 模型论文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》。研究人员披露 R1 的训练成本仅 29.4 万美元,但其基础模型花了约 600 万美元;R1 主要使用英伟达的 H800 AI 芯片训练,该芯片自 2023 年起被禁止出口到中国。DeepSeek 的主要创新是使用名叫纯强化学习(pure reinforcement learning)的方法自动化试错,对模型得出正确答案进行奖励,而不是教它遵循人类选择的推理示例。模型还使用名叫 group relative policy optimization 的方法给自己打分。对于今年早些使用 OpenAI 指责 DeepSeek 使用其模型的输出进行训练,研究人员予以否认。DeepSeek-R1 是 Hugging Face 上最受欢迎的模型之一,下载量达到 1090 万次,2025 年使用强化学习的大模型几乎都受到了 R1 的启发。

www.nature.com/articles/s41586-025-09422-z
www.nature.com/articles/d41586-025-03015-6

#人工智能

via Solidot - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]