基于Mamba模型的深度视觉-惯性里程计算法:动态特征融合与轨迹预测优化

【字体: 时间:2025年06月16日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  针对视觉-惯性里程计(VIO)中突发线性加速度导致的关键特征丢失及多模态信息融合效率低的问题,研究人员提出MamVIO算法。通过动态调整时空感受野的PyrNet模块和基于Mamba的双输入融合模块(VIFM),实现了9.56%平移精度和8.55%旋转精度的提升,为自动驾驶和AR/VR领域提供了更鲁棒的位姿估计方案。

  

在自动驾驶和增强现实(AR)技术蓬勃发展的今天,精确的自我运动估计成为智能体与环境交互的核心挑战。传统视觉里程计(VO)虽成本低廉,却受限于单目系统的尺度模糊性和纹理缺失环境的脆弱性;而惯性测量单元(IMU)虽能弥补视觉缺陷,但传统视觉-惯性里程计(VIO)方法依赖复杂的手工建模,难以适应真实场景的复杂性。针对这一困境,中国国家自然科学基金支持的研究团队在《Engineering Applications of Artificial Intelligence》发表论文,提出名为MamVIO的创新算法,通过动态特征提取和高效跨模态融合,显著提升了运动轨迹预测的准确性。

研究团队采用三大关键技术:1) 设计金字塔网络(PyrNet)动态调整时空感受野,解决相邻帧大位移导致特征丢失问题;2) 基于状态空间模型(SSM)的视觉-惯性融合模块(VIFM),通过四向扁平化策略实现跨尺度特征融合;3) 在KITTI数据集上验证时,采用SE(3)李群表示位姿,并对比传统CNN与Transformer方法的性能差异。

研究结果部分显示:
动态特征提取:PyrNet通过多级时空卷积,在KITTI序列中成功捕捉到92.3%的突发运动特征,较基线CNN提升23.7%。
跨模态融合:VIFM模块利用Mamba的线性计算复杂度优势,将特征融合耗时降低至传统注意力机制的1/8,同时保持95.4%的跨模态相关性。
系统性能:整体算法平移误差降至0.012m/s,旋转误差0.0036rad/s,较现有最佳学习型VIO提升9.56%和8.55%。

结论表明,MamVIO通过SSM的全局建模能力与动态感受野设计的协同,首次实现视觉-惯性特征的线性复杂度融合。这项研究不仅为复杂环境下的实时位姿估计提供新范式,其四向融合架构更为多模态感知任务开辟了新路径。正如作者Jiwei Liu所述,该成果在无人机紧急避障和AR场景持久化等应用中已展现显著优势,未来可扩展至脑机接口等多模态交互领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号