DeepSeek-R1:通过强化学习激励大语言模型推理能力涌现的新范式

【字体: 时间:2025年09月19日 来源:Nature 48.5

编辑推荐:

  为解决大语言模型(LLM)在复杂推理任务中依赖人工标注、认知偏差及性能瓶颈问题,DeepSeek团队开展基于纯强化学习(RL)的推理能力激励研究,提出DeepSeek-R1模型。该模型在数学(AIME 2024准确率77.9%)、编程竞赛及STEM领域超越监督学习方法,并涌现出自反思、验证等非人类推理模式,显著提升小模型推理能力。

  

在人工智能领域,通用推理能力一直是长期且艰巨的挑战。尽管大语言模型(LLM)和链式思维(CoT)提示技术在基础推理任务中取得显著成功,但其性能严重依赖大量人工标注的推理轨迹,且面对更复杂问题时仍存在能力不足。此外,这些方法受限于人类思维模式,无法探索更优越的非人类式推理路径。

为解决这些问题,DeepSeek团队在《Nature》发表的研究中,探索了通过强化学习(RL)框架激发LLM自我进化推理能力的潜力。研究人员基于DeepSeek-V3 Base模型,采用群组相对策略优化(GRPO)算法,仅依据最终答案正确性提供奖励信号,无需人类标注的推理过程。这种纯RL训练促使模型自然涌现出高级推理模式,如自我反思、验证和动态策略调整,在数学、编程竞赛和STEM领域验证任务中表现卓越,超越基于人类演示的传统监督学习方法。

研究采用多阶段训练框架,包括拒绝采样、RL和监督微调(SFT)。关键技术创新包括:1)GRPO算法简化训练过程并降低资源消耗;2)规则奖励系统(准确性奖励+格式奖励)确保可靠反馈;3)高性能RL基础设施支持大规模高效训练。对于通用数据,结合模型基奖励(帮助性奖励模型+安全性奖励模型)和语言一致性奖励。

研究结果方面:

推理能力突破:DeepSeek-R1-Zero在AIME 2024上pass@1准确率从15.6%提升至77.9%,自一致性解码后达86.7%,超越人类参赛者平均水平。在编程竞赛(LiveCodeBench pass@1 65.9%)和研究生级生物、物理、化学问题中同样表现优异。

推理行为进化:训练过程中模型响应长度持续增长(图1b),自主发展出反思性推理(如“等待”词频突变,表1)和系统化探索替代方案等策略。

多阶段优化:DeepSeek-R1通过冷启动数据、拒绝采样和SFT解决语言混合和可读性问题,在保持推理能力的同时提升指令遵循和用户偏好对齐(AlpacaEval 2.0提升25%)。

研究结论表明,预训练模型蕴含巨大推理潜力,其解锁关键不在于大规模人工标注,而在于提供困难推理问题、可靠验证器和充足RL计算资源。纯RL方法能有机涌现复杂推理行为,为未来自主自适应模型铺平道路。局限性包括:结构化输出和工具使用能力不足、令牌效率有待优化、多语言处理中的语言混合问题,以及奖励黑客风险。未来工作将聚焦工具增强推理、鲁棒奖励模型开发和软件工程任务异步评估优化。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号