
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型动态反馈的强化学习奖励函数自动设计框架CARD
【字体: 大 中 小 】 时间:2025年07月11日 来源:Knowledge-Based Systems 7.2
编辑推荐:
针对强化学习(RL)中人工设计奖励函数效率低、成本高的问题,研究人员提出LLM驱动的CARD框架,通过编码器-评估器动态迭代机制实现奖励函数自动优化。实验表明其在Meta-World和ManiSkill2的12项任务中,10项超越基线模型,3项超过人工设计效果,显著降低token消耗与训练成本。
在强化学习(RL)领域,设计高质量的奖励函数一直是核心挑战。传统方法依赖人工设计(MDP中的R函数),不仅需要专家知识,还常导致次优结果。虽然逆强化学习(IRL)和基于偏好的RL能自动学习奖励,但前者依赖高质量演示数据,后者需要大量偏好标签。近年来,大语言模型(LLM)被用于生成奖励代码,但现有方法存在三大痛点:需要人工干预、LLM查询次数多、需反复RL训练。
针对这些问题,清华大学的研究团队在《Knowledge-Based Systems》发表创新研究,提出Coder-EvA luator Reward Design框架(CARD)。该框架通过LLM驱动的编码器生成初始奖励代码,评估器采用轨迹偏好评估(TPE)进行动态反馈,形成"生成-评估-优化"的闭环系统。关键技术包括:1)基于环境描述的奖励函数自动编码;2)无需RL训练的TPE评估方法;3)过程/轨迹/偏好三重反馈机制。
研究结果方面:
• 性能对比:在Meta-World和ManiSkill2的12个任务测试中,CARD在10项任务上匹配或超越基线模型,其中3项超过人工设计的Oracle奖励。
• 效率优势:相比需全周期RL训练的方法[27],CARD通过TPE跳过67%的训练轮次,token消耗降低40-60%。
• 错误分析:生成的奖励代码首次执行成功率高达92%,通过反馈机制最终可达100%。
• 组件验证:消融实验显示TPE对性能提升贡献度达35%,三重反馈机制使迭代效率提升2.1倍。
这项研究的突破性在于:首次实现完全自动化的LLM奖励设计流程,通过动态反馈机制解决传统方法的高成本问题。其创新的TPE评估将奖励函数质量验证与RL训练解耦,为RL在自动驾驶等复杂场景的应用提供新范式。局限性在于迭代次数增加会导致token消耗线性上升,未来可通过few-shot提示优化进一步改进。该工作为AI自动设计AI系统开辟了新路径,相关代码已在开源平台发布。
生物通微信公众号
知名企业招聘