编辑推荐:
在强化学习(RL)中,奖励函数设计难度与学习效率间存在权衡问题。为此,研究人员基于预训练视觉 - 语言模型(VLM)ALBEF,提出 RealBEF 奖励塑形方法,利用任务描述和场景图像生成奖励。实验表明其在 Meta-World 环境中优于标准 RL 及现有方法,提升了策略学习效率。
机器人在动态环境中执行复杂操作任务的需求日益增长,强化学习(Reinforcement Learning, RL)作为实现机器人自主学习的核心技术,却面临奖励函数设计的难题:稀疏奖励导致学习效率低下,密集奖励需依赖专业知识手动设计,通用性差。尽管逆强化学习(Inverse Reinforcement Learning, IRL)尝试从专家演示中学习奖励函数,但在多物体交互的复杂场景中,仅靠演示难以明确任务目标和关键物体。此时,自然语言描述凭借其直观性和高效性,成为引导机器人学习的新方向,现有研究虽结合自然语言和图像进行奖励塑形,却因忽视图像中空间关系的时序信息,导致模型性能受限。
为突破这一瓶颈,国内研究团队针对机器人操作任务的奖励塑形问题展开研究。他们提出一种基于视觉 - 语言模型(Vision-Language Model, VLM)的奖励塑形方法 RealBEF(Reinforcement Learning with ALBEF),相关成果发表在《Engineering Applications of Artificial Intelligence》。该研究通过引入自然语言描述与场景图像的跨模态融合,旨在提升强化学习中奖励函数的设计效率与模型泛化能力,为机器人在复杂环境中的自主学习提供新路径。
关键技术方法
研究以预训练视觉 - 语言模型 ALBEF(Li et al., 2021)为骨干网络,构建跨模态信息融合框架。设计基于成对比较(Pair-wise Comparison)的下游任务,对预训练模型进行微调:通过比较不同图像 - 文本对的匹配程度,使模型捕捉图像中的空间关系。实验在机器人操作基准 Meta-World(Yu et al., 2019)中进行,选取 13 项单 / 多物体操作任务,采用与 Goyal et al.(2021)一致的环境设置,验证方法有效性。
研究结果
奖励塑形方法的设计与验证
现有方法常以图像 - 文本对的绝对分数标签训练奖励模型,或直接使用预训练模型未微调,导致模型无法捕捉图像中物体的空间关系。RealBEF 通过成对比较任务,迫使模型学习图像序列中物体位置、交互状态的时序变化,例如在开门任务中,模型可识别机械臂与门把手的相对位置是否趋近目标状态。实验表明,该方法显著提升模型对空间信息的表征能力。
Meta-World 环境中的性能对比
在 Meta-World 的 13 项任务中,RealBEF 的策略学习效率显著优于标准强化学习方法(如 PPO)及现有奖励塑形方法(如 LEARN、CLIP-RS)。例如,在 “抽屉拉开” 任务中,RealBEF 使机器人成功完成任务的平均训练步数减少 40%,且在多物体交互任务(如 “将物体放入容器”)中,成功率提升至 92%,远超基线方法的 65%。
无环境底层状态下的应用潜力
研究进一步探讨 RealBEF 在无法获取环境底层状态(如仅依赖视觉输入)时的适用性。通过遮挡状态空间实验,发现模型仍能通过图像 - 文本跨模态特征,有效引导机器人完成任务,表明其在真实无结构化环境中的应用潜力。
研究结论与意义
RealBEF 通过视觉 - 语言模型与成对比较任务的结合,解决了传统奖励塑形方法在捕捉图像空间关系中的不足,显著提升了强化学习在机器人操作任务中的学习效率。该方法无需手动设计密集奖励,降低了非专家用户的使用门槛,为机器人在工业装配、家庭服务等复杂场景中的自主学习提供了可扩展的框架。未来研究可进一步探索模型在动态环境中的实时适应性,以及多模态数据(如触觉信号)的融合,推动机器人从模拟环境向真实世界的迁移。