记忆门控扩散策略:面向机器人行为生成的时序依赖建模与动态记忆优化

【字体: 时间:2025年06月26日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  针对机器人行为生成中多模态分布、长时序依赖和高精度预测的挑战,研究人员提出记忆门控扩散策略(MDP),通过动态记忆管理和去耦合扩散采样,显著提升了目标导向行为的生成质量。该研究在模拟和真实场景中均超越主流方法(如BeT和扩散策略),为复杂长时序任务提供了新解决方案。

  

论文解读

在智能体行为学习领域,如何让机器人像人类一样灵活适应复杂环境一直是核心挑战。尽管强化学习(RL)在行为控制上取得进展,但其依赖显式奖励信号和高频环境交互的特性,限制了在安全敏感或资源受限场景的应用。模仿学习(IL)虽规避了这些问题,却受限于演示数据的质量和多样性。目标导向模仿学习(GCIL)通过引入动态目标条件机制,试图平衡适应性与数据效率,但现有方法(如基于Transformer的行为Transformer,BeT)难以处理高维动作空间的多模态分布,而扩散模型虽能生成多样行为,却易在长时序任务中丢失关键状态信息。

为此,研究人员提出记忆门控扩散策略(Memory-gated Diffusion Policy, MDP),通过动态记忆管理和去耦合扩散采样,显著提升目标导向行为的生成质量。研究采用记忆驱动变分自编码器(VAE)建模历史状态与当前观测的时序依赖,设计记忆感知状态门控(MSG)筛选关键记忆,并引入去噪扩散隐式模型(DDIM)加速推理。实验覆盖模拟操作(Block-Push、Push-T、Franka Kitchen)和真实机器人任务(抓取放置、抽屉操作),验证了MDP在长时序任务中的优越性。

关键方法

  1. 记忆驱动VAE:将历史状态与当前观测映射到统一潜在空间,通过重构损失捕捉时序关联;
  2. 记忆门控Mamba(MGMamba):检索与当前观测相关的长时序记忆;
  3. 去耦合扩散采样:结合DDIM的非马尔可夫过程,将采样步数从百步级降至十步级。

研究结果

目标导向模仿学习(GCIL):MDP通过动态记忆机制增强策略对多模态数据的适应性,在Block-Push任务中成功率较BeT提升18.7%。

方法:MDP的编码阶段建立历史状态-观测关联,解码阶段通过记忆门控注意力(MGA)筛选高优先级记忆,在Push-T任务中错误率降低32%。

实验:在Franka Kitchen复杂场景中,MDP保持83.4%的任务完成率,而扩散策略仅达61.2%;真实机器人长时序任务中,MDP的抓取精度较基线提高25%。

讨论:MDP揭示了记忆机制在长时序任务中的核心作用:MSG有效缓解了关键状态遗忘问题,DDIM加速策略在保持生成质量的同时将推理速度提升4倍。

结论与意义

MDP为机器人行为生成提供了兼顾性能与效率的新范式:其记忆门控架构解决了长时序依赖下的状态混淆问题,去耦合采样突破了扩散模型推理速度瓶颈。该研究不仅推动了GCIL在复杂任务中的应用,也为视频分类等领域的时序建模提供了借鉴。未来工作可探索记忆机制的跨模态扩展及在医疗机器人等安全敏感场景的落地。

(注:全文细节均基于原文,专业术语如VAE、DDIM等首次出现时已标注英文全称,作者名Xiao Huang等保留原文格式。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号