基于并行深度状态空间与Transformer模型的预操作轨迹-语言指令对齐预测研究

【字体: 时间:2025年07月23日 来源:Aging, Neuropsychology, and Cognition 1.6

编辑推荐:

  为解决开放词汇物体操作任务中成功率预测的滞后性问题,研究人员创新性地提出了一种预操作对齐预测模型。该研究通过并行整合深度状态空间模型(DSSM)和Transformer编码器,开发了多级轨迹融合模块(MLTF),实现了末端执行器轨迹的多层次时间序列自相关捕捉。实验表明该方法在预测精度上超越了现有基础模型,为机器人操作安全性和效率提升提供了新思路。

  

这项突破性研究聚焦于开放词汇物体操作任务(open-vocabulary object manipulation)的成功率预测难题。传统方法只能在操作完成后判定成败,既难以预防潜在风险,又依赖失败触发重规划,严重影响操作序列效率。

研究团队另辟蹊径,提出通过预操作阶段的第一视角图像(egocentric image)、规划轨迹与自然语言指令(natural language instruction)的三元对齐预测来实现前瞻性判断。核心技术亮点在于创新的多级轨迹融合模块(Multi-Level Trajectory Fusion, MLTF),该模块创造性地采用深度状态空间模型(deep state-space model)与Transformer编码器并行架构,巧妙捕捉末端执行器(end effector)轨迹中蕴含的多层次时间序列自相关特征。

实验数据令人振奋:这套融合方案展现出对现有基础模型(foundation models)的全面性能超越。该成果不仅为机器人操作安全预警建立了新范式,更通过提前预测替代事后判断,显著提升了连续物体操作任务的执行效率。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号