🤖 DeepSeek R1 模型论文发布：训练成本仅29.4万美元，引领强化学习大模型新趋势DeepSeek 研究人员在《自然》期刊上发表了 R1 模型论文，披露其训练成本仅为 29.4 万美元，而基础模型耗资约 600 万美元

🤖 DeepSeek R1 模型论文发布：训练成本仅29.4万美元，引领强化学习大模型新趋势

DeepSeek 研究人员在《自然》期刊上发表了 R1 模型论文，披露其训练成本仅为 29.4 万美元，而基础模型耗资约 600 万美元。R1 主要利用英伟达 H800 AI 芯片（自 2023 年起禁止出口中国）进行训练。该模型的核心创新在于采用“纯强化学习”方法自动化试错，通过奖励正确答案来激励模型推理，并使用“group relative policy optimization”进行自我评分。DeepSeek 否认了此前关于其使用 OpenAI 模型输出进行训练的指控。DeepSeek-R1 已成为 Hugging Face 上最受欢迎的模型之一，下载量达 1090 万次，并启发了 2025 年几乎所有采用强化学习的大模型。

(科技情报)

via 茶馆 - Telegram Channel