ST-HADP: 时空层次注意力扩散策略用于长期可泛化的双臂视觉运动模仿

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Neurorobotics》：ST-HADP: Spatio-Temporal hierarchical attention diffusion policy for long-horizon generalizable bimanual visuomotor imitation

【字体：大中小】 时间：2026年06月09日 来源：Frontiers in Neurorobotics 2.8

编辑推荐：

　　摘要：引言：双臂机器人操作在有限演示场景下，协调空间共享感知和时间扩展行为面临根本性挑战。现有基于扩散的视觉运动策略依赖平面时间视域和全局池化视觉特征，无法捕捉双臂协作的结构化特性。方法：研究人员提出时空层次注意力扩散策略（ST-HADP），这是一个通过显式空

摘要：引言：双臂机器人操作在有限演示场景下，协调空间共享感知和时间扩展行为面临根本性挑战。现有基于扩散的视觉运动策略依赖平面时间视域和全局池化视觉特征，无法捕捉双臂协作的结构化特性。方法：研究人员提出时空层次注意力扩散策略（ST-HADP），这是一个通过显式空间和时间结构扩展3D扩散策略的框架。ST-HADP引入空间注意力模块（SAM），学习臂特定在任务相关3D区域上的关注，实现动态且协调的空间推理。它还结合时间抽象模块（TAM），通过层次潜变量建模跨多个时间尺度的动作序列，促进与长期任务自然进程一致的由粗到细的动作生成。这些组件通过多目标损失函数联合优化，该损失函数整合注意力正则化和时间一致性，促进空间聚焦与时间平滑的协调。结果：研究人员在RoboTwin 2.0平台上评估ST-HADP，涉及六种不同形态和任务的双臂机器人配置。仅使用50个自动生成的专家演示，该方法在适度额外计算开销下，持续优于基线策略，实现更高成功率。讨论：结果表明，显式空间和时间结构能在有限演示场景下实现有效双臂协调。ST-HADP为双臂操作提供了一个可泛化框架，表明层次注意力机制为样本高效学习协调的多臂行为提供了有前景的方向。

**论文解读：ST-HADP：面向长期可泛化双臂视觉运动模仿的时空层次注意力扩散策略**

**研究背景与问题**
双臂机器人操作在复杂现实任务中日益关键，但相比单臂系统，双臂设置要求两个代理在共享物理空间内协调感知与动作，需要能够推理空间依赖、时间扩展行为以及动态角色分配的策略。现有基于扩散的视觉运动策略（如3D扩散策略DP3）依赖平面时间视域和全局池化视觉特征，无法建模双臂协作中固有的空间专业化与时间层次结构。这些方法统一处理整个场景，忽视了臂特定空间注意力与时间抽象的需求，限制了空间泛化、跨臂协调一致性以及任务阶段间的行为模式稳定性。因此，在有限演示数据下实现高效、可泛化的双臂协调极具挑战。

**研究内容与意义**
研究人员提出时空层次注意力扩散策略（ST-HADP），通过显式空间和时间结构扩展3D扩散策略，专门用于双臂操作。该方法引入空间注意力模块（SAM）学习臂特定在任务相关3D区域上的动态关注，并结合时间抽象模块（TAM）通过层次潜变量建模跨时间尺度的动作序列，实现由粗到细的动作生成。这些组件通过多目标损失函数联合优化，整合注意力正则化与时间一致性。在RoboTwin 2.0平台上的六种双臂机器人配置（Franka-Franka、ARX-Franka等）中，仅使用50个自动生成的专家演示，ST-HADP持续优于DP3基线，达到更高成功率，且额外计算开销适中。该论文发表在《Frontiers in Neurorobotics》。意义在于证实了显式时空结构在有限演示下实现高效双臂协调的可行性，为样本高效学习协调的多臂行为提供了新方向。

**关键技术方法概述**
研究人员采用的主要关键技术包括：① **空间注意力模块（SAM）**：基于多头注意力机制，在共享3D点云上为每只臂学习动态注意力掩码，通过注意力正则化损失（L_attn）惩罚不相关区域（如桌面、背景）的注意力权重，提升空间聚焦与泛化能力。② **时间抽象模块（TAM）**：通过两阶段训练实现层次动作生成。第一阶段，训练变分自编码器（VAE）从专家动作块中提取高层时间潜变量（z_t）；第二阶段，高层扩散模型预测z_t，低层扩散模型基于z_t生成动作序列，通过特征线性调制（FiLM）融入空间特征与机器人状态。③ **时间一致性损失（L_temp）**：在任务空间（笛卡尔空间）中惩罚双臂末端执行器相对关系（位置、速度、相对位移）的突变，促进平滑协调。④ **共享3D视觉感知**：使用单摄像头RGB-D观测构建3D点云，经空间裁剪与最远点采样（FPS）后，通过共享MLP编码器提取全局特征与臂特定空间特征。样本来源：RoboTwin 2.0平台自动生成的50条专家演示轨迹，训练/验证集划分80:20。

**研究结果**

- **验证损失分析**：通过监测六次独立训练中的验证损失曲线，ST-HADP表现出平滑稳定的收敛性，训练后期振荡极小，证明训练过程稳定。
- **计算复杂度分析**：与DP3基线相比，ST-HADP的初始内存（2.296 GB vs 2.292 GB）与峰值内存（2.376 GB vs 2.371 GB）仅略有增加，平均推理时间约1.55秒（DP3为1.44秒），表明在适度计算开销下实现了更强性能。
- **任务成功率评估**：在六种双臂机器人配置的“put object cabinet”任务上，ST-HADP的平均成功率均高于DP3（如Franka-Franka：86%±3% vs 80%±5%）。配对t检验显示除Aloha-Aloha（p=0.07）外，其余配置改进均统计显著（p<0.05）。在另外五种双臂任务上（如Turn switch、Place can basket等），ST-HADP在所有任务中均优于DP3及其他基线（RDT、Pi⁰、ACT等），例如Press stapler任务中ST-HADP成功率为76%±2%，而DP3为69%±4%。
- **消融研究**：在“place can basket”任务上对ST-HADP的六个变体进行消融（移除SAM、TAM、L_temp、L_attn，并将FiLM替换为拼接），全模型（Full ST-HADP）在所有六个配置上均取得最高成功率（如Franka-Franka：70%±2%），证实各组件对性能的贡献。移除SAM或TAM导致成功率下降最明显（如Franka-Franka从70%降至62%和61%），表明空间注意力与时间抽象均是关键。

**讨论与结论**
讨论部分指出，显式空间和时间结构使ST-HADP能在有限演示下实现有效双臂协调，且层次注意力机制为样本高效学习提供了有前景方向。结论部分总结：ST-HADP通过SAM和TAM解决了现有扩散策略依赖平面时间视域与全局池化特征的局限，实验证明其在多配置双臂任务上普遍优于DP3。局限性包括依赖校准相机（限制现实部署）以及固定两层时间层次可能不适用于需要更细粒度时间组合的任务。研究结论为：本研究提出的ST-HADP框架通过显式建模空间专业化与时间抽象，在有限演示场景下实现了稳健的双臂协调，验证了层次注意力在双臂操作中的有效性。

联系信箱：

粤ICP备09063491号

热点排行