
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于并行深度状态空间与Transformer模型的预操作轨迹-语言指令对齐预测研究
【字体: 大 中 小 】 时间:2025年07月23日 来源:Aging, Neuropsychology, and Cognition 1.6
编辑推荐:
为解决开放词汇物体操作任务中成功率预测的滞后性问题,研究人员创新性地提出了一种预操作对齐预测模型。该研究通过并行整合深度状态空间模型(DSSM)和Transformer编码器,开发了多级轨迹融合模块(MLTF),实现了末端执行器轨迹的多层次时间序列自相关捕捉。实验表明该方法在预测精度上超越了现有基础模型,为机器人操作安全性和效率提升提供了新思路。
这项突破性研究聚焦于开放词汇物体操作任务(open-vocabulary object manipulation)的成功率预测难题。传统方法只能在操作完成后判定成败,既难以预防潜在风险,又依赖失败触发重规划,严重影响操作序列效率。
研究团队另辟蹊径,提出通过预操作阶段的第一视角图像(egocentric image)、规划轨迹与自然语言指令(natural language instruction)的三元对齐预测来实现前瞻性判断。核心技术亮点在于创新的多级轨迹融合模块(Multi-Level Trajectory Fusion, MLTF),该模块创造性地采用深度状态空间模型(deep state-space model)与Transformer编码器并行架构,巧妙捕捉末端执行器(end effector)轨迹中蕴含的多层次时间序列自相关特征。
实验数据令人振奋:这套融合方案展现出对现有基础模型(foundation models)的全面性能超越。该成果不仅为机器人操作安全预警建立了新范式,更通过提前预测替代事后判断,显著提升了连续物体操作任务的执行效率。
生物通微信公众号
知名企业招聘