🤖 DeepSeek R1 模型论文发布:训练成本仅29.4万美元,引领强化学习大模型新趋势
DeepSeek 研究人员在《自然》期刊上发表了 R1 模型论文,披露其训练成本仅为 29.4 万美元,而基础模型耗资约 600 万美元。R1 主要利用英伟达 H800 AI 芯片(自 2023 年起禁止出口中国)进行训练。该模型的核心创新在于采用“纯强化学习”方法自动化试错,通过奖励正确答案来激励模型推理,并使用“group relative policy optimization”进行自我评分。DeepSeek 否认了此前关于其使用 OpenAI 模型输出进行训练的指控。DeepSeek-R1 已成为 Hugging Face 上最受欢迎的模型之一,下载量达 1090 万次,并启发了 2025 年几乎所有采用强化学习的大模型。
(科技情报)
via 茶馆 - Telegram Channel
DeepSeek 研究人员在《自然》期刊上发表了 R1 模型论文,披露其训练成本仅为 29.4 万美元,而基础模型耗资约 600 万美元。R1 主要利用英伟达 H800 AI 芯片(自 2023 年起禁止出口中国)进行训练。该模型的核心创新在于采用“纯强化学习”方法自动化试错,通过奖励正确答案来激励模型推理,并使用“group relative policy optimization”进行自我评分。DeepSeek 否认了此前关于其使用 OpenAI 模型输出进行训练的指控。DeepSeek-R1 已成为 Hugging Face 上最受欢迎的模型之一,下载量达 1090 万次,并启发了 2025 年几乎所有采用强化学习的大模型。
(科技情报)
via 茶馆 - Telegram Channel