通过指导扩散模型实现多目标偏好的连续对齐
《Pattern Recognition》:Continuous Alignment of Multi-Target Preferences via Instructed Diffusion Model
【字体:
大
中
小
】
时间:2025年12月28日
来源:Pattern Recognition 7.6
编辑推荐:
多目标偏好对齐与扩散模型结合生成连续可控的轨迹。提出CAMP-IDM框架,通过轨迹对和相对属性变化指令训练扩散模型,实现多目标连续偏好对齐,实验验证其有效性和泛化能力。
赵英楠|王新苗|卢丹|韩启龙|白晨佳
哈尔滨工程大学计算机科学与技术学院,中国黑龙江省哈尔滨市150000
摘要
基于偏好的强化学习(PbRL)是一种有效的方法,可以将策略与人类偏好对齐。扩散模型具有强大的表达能力,能够将决策过程表述为条件轨迹生成,因此它们是与PbRL结合以实现偏好感知行为合成的有前途的候选方法。现有方法从偏好数据中提取标量属性值,并使用这些值进行条件化处理。然而,生成的轨迹往往缺乏细粒度的可控性,尤其是在属性连续变化时。在本文中,我们提出了CAMP-IDM方法,以实现与多目标偏好的连续对齐,该方法基于基本轨迹和属性变化指令生成轨迹。我们收集了具有微妙属性变化的轨迹对及其对应的指令,用于训练一种新的扩散模型,该模型能够迭代地优化轨迹,使其更符合偏好要求,从而确保覆盖整个属性范围。在控制基准测试中的实验表明,我们的方法能够有效地引导行为与多目标偏好保持一致。通过迭代改进过程,我们的方法甚至可以生成超出训练数据中属性范围的轨迹。
引言
强化学习(RL)中的策略对齐是一个关键问题,确保学习到的策略与期望的值和目标保持一致。一种常见的方法是奖励对齐[1],即设计一个能够准确反映期望结果的奖励函数来引导智能体实现目标。然而,由于需要精确的规范和专家经验,设计这样的奖励函数可能非常具有挑战性,并可能导致非预期的行为。基于偏好的强化学习(PbRL)通过从决策轨迹中的偏好关系学习参数化的奖励函数来避免奖励操纵[2],而不是手动设计的奖励函数。PbRL最终学到的奖励函数隐含了对齐目标,使其能够捕捉到传统奖励函数难以表达的细微差别[3]。PbRL是策略偏好对齐的宝贵工具,并被广泛应用于各种决策方法中[4]。
最近的进展将基于扩散的策略[5]与PbRL相结合,这是因为扩散模型能够减轻RL中常见的外推误差[6]。一些工作使用扩散模型通过回报条件生成[7]或回报引导采样[8]来生成偏好轨迹。然而,这些方法主要局限于单一目标偏好,如奖励或回报,这限制了它们在现实世界场景中的适用性,因为在现实世界中人类的偏好通常是多维的。将PbRL扩展到多目标设置在文献中仍大多未被探索。
为了使策略与多目标人类偏好对齐,AlignDiff[9]提出了一种属性强度模型,该模型能够描述更广泛的对齐目标。然后使用属性向量作为轨迹生成的条件,试图建立轨迹和属性向量之间的一一对应关系。然而,生成的轨迹往往无法确保条件与生成结果之间的一致性。如图1所示,由于使用标量属性值作为条件,生成的轨迹序列可能会出现属性值的突然变化,因为数据不平衡阻碍了模型覆盖所有属性值。这种不连续性导致对属性值微小变化的控制不够精确,从而在生成轨迹时产生不准确性。因此,我们的目标是使生成轨迹中的属性值实现连续变化,从而确保覆盖整个属性值范围。
在本文中,我们介绍了通过指令扩散模型(CAMP-IDM)实现多目标偏好连续对齐的框架,该框架旨在实现与多个偏好的连续对齐。与之前基于标量值的条件化方法不同,我们的方法将问题重新定义为从轨迹之间的相对变化中进行学习。通过利用扩散模型捕捉多目标偏好的潜在模式,我们克服了标量条件化的局限性,后者未能充分利用可用数据,并且对分布不平衡非常敏感。实际上,我们的策略是基于基础轨迹和相应的指令共同条件化的,该指令指定了多个属性所需的变更。为了让扩散模型学习到偏好的潜在模式,我们构建了训练数据对,即一个基础轨迹和一个在运动属性上有细微差异的目标轨迹。从每对数据中,我们自动推导出一个指令,该指令编码了相对的属性变化(例如,“高度略有增加,速度显著降低”),然后将其与基础轨迹配对以监督目标轨迹的生成。通过从数据集中随机采样轨迹对,获得的指令可以覆盖广泛的指令空间。在推理过程中,指令被解释为人类偏好,通过多轮改进生成期望的轨迹,然后可以使用逆动力学模型[10]提取动作。
与之前的基于属性的条件化方法相比,(i)我们的方法采用指令而不是精确的属性值作为条件,通过比较两个轨迹更容易获得这些指令;同时,(ii)指令表示两个轨迹之间的相对关系,而不是固定的标量属性值,这使得根据基础轨迹生成行为连续变化的目标轨迹变得更加容易。我们在控制基准测试上进行了广泛的实验,结果表明,我们的方法能够引导智能体的行为根据多目标偏好进行改进,生成与给定指令更一致的轨迹。
章节片段
基于偏好的强化学习
基于偏好的强化学习(PbRL)利用人类偏好来指导策略的训练,从而绕过了奖励工程相关的挑战[11]。PbRL的核心思想是基于人类偏好反馈来训练奖励模型,然后使用这些模型来优化智能体的策略。在现有方法中,通常有三种类型的偏好反馈:动作[12]、[13]、状态[14]、[15]以及轨迹偏好[4]、[8]、[9]。其中,轨迹偏好
方法
本节详细介绍了CAMP-IDM框架,并解释了它如何利用条件扩散模型实现连续的多目标偏好对齐。首先,我们解释了条件扩散模型的训练数据集是如何构建的。然后,我们提出了指令扩散模型(IDM)的学习目标,描述了如何从构建的数据集中学习轨迹之间的偏好关系。此外,我们还解释了规划过程
实验与结果
我们主要在几个MuJoCo运动任务上评估了CAMP-IDM(第4.1节),所有研究问题都得到了系统的研究。为了进一步评估我们方法的实际可行性,我们还使用了一个真实世界的机器人操控数据集Bridge-v2 [30]进行了实验。具体来说,策略是在从物理机械臂收集的轨迹上训练的,然后在 [31]基准测试中进行了验证(第4.2节)。
结论与未来工作
在这项工作中,我们提出了CAMP-IDM,这是一个用于决策中连续多偏好对齐的框架。通过从轨迹对中学习相对属性变化,CAMP-IDM生成的轨迹能够平滑地适应指令指定的偏好,从而实现与期望行为的更好对齐。实验表明,在复杂的多目标偏好和未见过的偏好情况下,性能得到了提升。尽管有这些优势,基于扩散的策略仍存在一些明显的问题
CRediT作者贡献声明
赵英楠:撰写 – 审稿与编辑、监督、项目管理、资金获取、概念化。王新苗:撰写 – 原始草稿、可视化、方法论、形式分析、数据整理。卢丹:监督、资金获取。韩启龙:监督、资源获取、项目管理、资金获取。白晨佳:撰写 – 审稿与编辑、监督、方法论、调查、概念化。
利益冲突声明
作者声明没有利益冲突。作者与本文所述的研究没有任何财务或个人关系。与本研究无关的竞争性财务利益不存在。
致谢
本研究得到了中国黑龙江省重点研发计划(项目编号:GA23A915)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号