
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于三帧视图的动态SLAM新方法:Trifocal SLAM在复杂环境中的定位与建图突破
【字体: 大 中 小 】 时间:2025年07月21日 来源:Neurocomputing 5.5
编辑推荐:
针对动态环境中SLAM系统易受运动物体干扰的难题,研究人员提出Trifocal SLAM,通过三帧共面约束(trifocal coplanarity)结合YOLOv8-seg语义分割,有效区分静态与动态特征。实验显示其轨迹估计RMSE显著优于ORB-SLAM2,在TUM RGB-D和BONN数据集验证了实时性与鲁棒性。
在机器人导航领域,同时定位与建图(SLAM)技术长期面临“动态环境诅咒”——传统系统如ORB-SLAM2依赖静态场景假设,一旦遇到移动的汽车、行人甚至临时运动的桌椅,定位精度就会断崖式下跌。更棘手的是,那些未被预定义为动态却突然移动的物体(如被搬运的箱子),就像潜伏的“环境刺客”,让基于两帧视图的极线几何(epipolar geometry)彻底失灵。这种“运动方向盲区”问题,使得沿相机视线移动的物体总能逃过算法检测。
印度理工学院坎普尔分校(Indian Institute of Technology Kanpur)机械工程系的Bhaskar Dasgupta教授团队在《Neurocomputing》发表的Trifocal SLAM研究,带来了破局利器。他们创新性地引入三帧共面约束,让系统像人类一样通过“三视图立体观察”捕捉细微运动。配合YOLOv8-seg语义分割网络,这套方法在TUM RGB-D和BONN数据集上将轨迹误差最高降低了46%,甚至超越多数深度学习方案。
关键技术包括:1)基于三帧几何约束的运动一致性模块;2)并行四线程架构(分割/跟踪/局部建图/闭环检测);3)YOLOv8-seg实时语义分割;4)绝对轨迹误差(ATE)与相对位姿误差(RPE)双指标评估体系。
【方法论】
系统框架采用ORB-SLAM2基础结构,新增语义线程实时输出动态物体掩膜。核心创新在于用三帧共面约束替代传统两帧极线几何:通过连续三帧的特征点投影关系建立二维约束,有效识别沿视线方向的运动。实验证明该几何方法单独使用时,动态点检测准确率已超现有方案。
【实验结果】
在TUM RGB-D的“行走静态”场景中,Trifocal SLAM的ATE较ORB-SLAM2降低38.7%;面对BONN数据集极端动态环境(多人搬运大件物品),RPE稳定性提升52%。实验室真实场景测试进一步验证,系统能正确识别被移动的“静态”物体(如实验台车)。
【结论】
这项研究突破了两视图几何的固有局限,通过三帧约束构建更鲁棒的运动感知体系。其意义不仅在于技术指标的提升,更开创性地证明:在适当几何框架下,传统方法仍可超越复杂深度学习模型。未来工作可探索多模态传感器融合,进一步强化对透明/反光物体的处理能力。
生物通微信公众号
知名企业招聘