基于大语言模型动态反馈的强化学习奖励函数自动设计框架CARD

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月11日 来源：Knowledge-Based Systems 7.2

编辑推荐：

　　针对强化学习(RL)中人工设计奖励函数效率低、成本高的问题，研究人员提出LLM驱动的CARD框架，通过编码器-评估器动态迭代机制实现奖励函数自动优化。实验表明其在Meta-World和ManiSkill2的12项任务中，10项超越基线模型，3项超过人工设计效果，显著降低token消耗与训练成本。

在强化学习(RL)领域，设计高质量的奖励函数一直是核心挑战。传统方法依赖人工设计(MDP中的R函数)，不仅需要专家知识，还常导致次优结果。虽然逆强化学习(IRL)和基于偏好的RL能自动学习奖励，但前者依赖高质量演示数据，后者需要大量偏好标签。近年来，大语言模型(LLM)被用于生成奖励代码，但现有方法存在三大痛点：需要人工干预、LLM查询次数多、需反复RL训练。

针对这些问题，清华大学的研究团队在《Knowledge-Based Systems》发表创新研究，提出Coder-EvA luator Reward Design框架(CARD)。该框架通过LLM驱动的编码器生成初始奖励代码，评估器采用轨迹偏好评估(TPE)进行动态反馈，形成"生成-评估-优化"的闭环系统。关键技术包括：1)基于环境描述的奖励函数自动编码；2)无需RL训练的TPE评估方法；3)过程/轨迹/偏好三重反馈机制。

研究结果方面：
• 性能对比：在Meta-World和ManiSkill2的12个任务测试中，CARD在10项任务上匹配或超越基线模型，其中3项超过人工设计的Oracle奖励。
• 效率优势：相比需全周期RL训练的方法[27]，CARD通过TPE跳过67%的训练轮次，token消耗降低40-60%。
• 错误分析：生成的奖励代码首次执行成功率高达92%，通过反馈机制最终可达100%。
• 组件验证：消融实验显示TPE对性能提升贡献度达35%，三重反馈机制使迭代效率提升2.1倍。

这项研究的突破性在于：首次实现完全自动化的LLM奖励设计流程，通过动态反馈机制解决传统方法的高成本问题。其创新的TPE评估将奖励函数质量验证与RL训练解耦，为RL在自动驾驶等复杂场景的应用提供新范式。局限性在于迭代次数增加会导致token消耗线性上升，未来可通过few-shot提示优化进一步改进。该工作为AI自动设计AI系统开辟了新路径，相关代码已在开源平台发布。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号