基于三帧视图的动态SLAM新方法:Trifocal SLAM在复杂环境中的定位与建图突破

【字体: 时间:2025年07月21日 来源:Neurocomputing 5.5

编辑推荐:

  针对动态环境中SLAM系统易受运动物体干扰的难题,研究人员提出Trifocal SLAM,通过三帧共面约束(trifocal coplanarity)结合YOLOv8-seg语义分割,有效区分静态与动态特征。实验显示其轨迹估计RMSE显著优于ORB-SLAM2,在TUM RGB-D和BONN数据集验证了实时性与鲁棒性。

  

在机器人导航领域,同时定位与建图(SLAM)技术长期面临“动态环境诅咒”——传统系统如ORB-SLAM2依赖静态场景假设,一旦遇到移动的汽车、行人甚至临时运动的桌椅,定位精度就会断崖式下跌。更棘手的是,那些未被预定义为动态却突然移动的物体(如被搬运的箱子),就像潜伏的“环境刺客”,让基于两帧视图的极线几何(epipolar geometry)彻底失灵。这种“运动方向盲区”问题,使得沿相机视线移动的物体总能逃过算法检测。

印度理工学院坎普尔分校(Indian Institute of Technology Kanpur)机械工程系的Bhaskar Dasgupta教授团队在《Neurocomputing》发表的Trifocal SLAM研究,带来了破局利器。他们创新性地引入三帧共面约束,让系统像人类一样通过“三视图立体观察”捕捉细微运动。配合YOLOv8-seg语义分割网络,这套方法在TUM RGB-D和BONN数据集上将轨迹误差最高降低了46%,甚至超越多数深度学习方案。

关键技术包括:1)基于三帧几何约束的运动一致性模块;2)并行四线程架构(分割/跟踪/局部建图/闭环检测);3)YOLOv8-seg实时语义分割;4)绝对轨迹误差(ATE)与相对位姿误差(RPE)双指标评估体系。

【方法论】
系统框架采用ORB-SLAM2基础结构,新增语义线程实时输出动态物体掩膜。核心创新在于用三帧共面约束替代传统两帧极线几何:通过连续三帧的特征点投影关系建立二维约束,有效识别沿视线方向的运动。实验证明该几何方法单独使用时,动态点检测准确率已超现有方案。

【实验结果】
在TUM RGB-D的“行走静态”场景中,Trifocal SLAM的ATE较ORB-SLAM2降低38.7%;面对BONN数据集极端动态环境(多人搬运大件物品),RPE稳定性提升52%。实验室真实场景测试进一步验证,系统能正确识别被移动的“静态”物体(如实验台车)。

【结论】
这项研究突破了两视图几何的固有局限,通过三帧约束构建更鲁棒的运动感知体系。其意义不仅在于技术指标的提升,更开创性地证明:在适当几何框架下,传统方法仍可超越复杂深度学习模型。未来工作可探索多模态传感器融合,进一步强化对透明/反光物体的处理能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号