基于并行深度状态空间与Transformer模型的预操作轨迹-语言指令对齐预测研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月23日 来源：Aging, Neuropsychology, and Cognition 1.6

编辑推荐：

　　为解决开放词汇物体操作任务中成功率预测的滞后性问题，研究人员创新性地提出了一种预操作对齐预测模型。该研究通过并行整合深度状态空间模型(DSSM)和Transformer编码器，开发了多级轨迹融合模块(MLTF)，实现了末端执行器轨迹的多层次时间序列自相关捕捉。实验表明该方法在预测精度上超越了现有基础模型，为机器人操作安全性和效率提升提供了新思路。

这项突破性研究聚焦于开放词汇物体操作任务(open-vocabulary object manipulation)的成功率预测难题。传统方法只能在操作完成后判定成败，既难以预防潜在风险，又依赖失败触发重规划，严重影响操作序列效率。

研究团队另辟蹊径，提出通过预操作阶段的第一视角图像(egocentric image)、规划轨迹与自然语言指令(natural language instruction)的三元对齐预测来实现前瞻性判断。核心技术亮点在于创新的多级轨迹融合模块(Multi-Level Trajectory Fusion, MLTF)，该模块创造性地采用深度状态空间模型(deep state-space model)与Transformer编码器并行架构，巧妙捕捉末端执行器(end effector)轨迹中蕴含的多层次时间序列自相关特征。

实验数据令人振奋：这套融合方案展现出对现有基础模型(foundation models)的全面性能超越。该成果不仅为机器人操作安全预警建立了新范式，更通过提前预测替代事后判断，显著提升了连续物体操作任务的执行效率。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号