DeepSeek 发表 R1 模型论文，称训练成本仅 29.4 万美元2025-09-18 22:54 by 星际归途DeepSeek 的研究人员在《自然》期刊上发表了 R1 模型论文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》

DeepSeek 发表 R1 模型论文，称训练成本仅 29.4 万美元

2025-09-18 22:54 by 星际归途

DeepSeek 的研究人员在《自然》期刊上发表了 R1 模型论文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》。研究人员披露 R1 的训练成本仅 29.4 万美元，但其基础模型花了约 600 万美元；R1 主要使用英伟达的 H800 AI 芯片训练，该芯片自 2023 年起被禁止出口到中国。DeepSeek 的主要创新是使用名叫纯强化学习（pure reinforcement learning）的方法自动化试错，对模型得出正确答案进行奖励，而不是教它遵循人类选择的推理示例。模型还使用名叫 group relative policy optimization 的方法给自己打分。对于今年早些使用 OpenAI 指责 DeepSeek 使用其模型的输出进行训练，研究人员予以否认。DeepSeek-R1 是 Hugging Face 上最受欢迎的模型之一，下载量达到 1090 万次，2025 年使用强化学习的大模型几乎都受到了 R1 的启发。

www.nature.com/articles/s41586-025-09422-z
www.nature.com/articles/d41586-025-03015-6

#人工智能

via Solidot - Telegram Channel