9月17日,梁文锋团队在《自然》杂志发表论文,介绍开源AI模型DeepSeek-R1采用的大规模推理模型训练方法。研究表明,通过纯强化学习训练大规模推理模型,可有效提升大语言模型推理能力并降低人类输入需求。该模型在数学、编程竞赛及STEM领域研究生水平任务中表现优异,如数学基准测试得分达77.9%(DeepSeek-R1-Zero)和79.8%(DeepSeek-R1)。模型以解决问题获奖励机制强化学习,减少训练成本与复杂性。团队称未来将聚焦优化奖励过程以提高推理可靠性。
(科技日报记者 张梦然 岳靓)