基于三帧视图的动态SLAM新方法：Trifocal SLAM在复杂环境中的定位与建图突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月21日 来源：Neurocomputing 5.5

编辑推荐：

　　针对动态环境中SLAM系统易受运动物体干扰的难题，研究人员提出Trifocal SLAM，通过三帧共面约束(trifocal coplanarity)结合YOLOv8-seg语义分割，有效区分静态与动态特征。实验显示其轨迹估计RMSE显著优于ORB-SLAM2，在TUM RGB-D和BONN数据集验证了实时性与鲁棒性。

在机器人导航领域，同时定位与建图（SLAM）技术长期面临“动态环境诅咒”——传统系统如ORB-SLAM2依赖静态场景假设，一旦遇到移动的汽车、行人甚至临时运动的桌椅，定位精度就会断崖式下跌。更棘手的是，那些未被预定义为动态却突然移动的物体（如被搬运的箱子），就像潜伏的“环境刺客”，让基于两帧视图的极线几何（epipolar geometry）彻底失灵。这种“运动方向盲区”问题，使得沿相机视线移动的物体总能逃过算法检测。

印度理工学院坎普尔分校（Indian Institute of Technology Kanpur）机械工程系的Bhaskar Dasgupta教授团队在《Neurocomputing》发表的Trifocal SLAM研究，带来了破局利器。他们创新性地引入三帧共面约束，让系统像人类一样通过“三视图立体观察”捕捉细微运动。配合YOLOv8-seg语义分割网络，这套方法在TUM RGB-D和BONN数据集上将轨迹误差最高降低了46%，甚至超越多数深度学习方案。

关键技术包括：1）基于三帧几何约束的运动一致性模块；2）并行四线程架构（分割/跟踪/局部建图/闭环检测）；3）YOLOv8-seg实时语义分割；4）绝对轨迹误差（ATE）与相对位姿误差（RPE）双指标评估体系。

【方法论】
系统框架采用ORB-SLAM2基础结构，新增语义线程实时输出动态物体掩膜。核心创新在于用三帧共面约束替代传统两帧极线几何：通过连续三帧的特征点投影关系建立二维约束，有效识别沿视线方向的运动。实验证明该几何方法单独使用时，动态点检测准确率已超现有方案。

【实验结果】
在TUM RGB-D的“行走静态”场景中，Trifocal SLAM的ATE较ORB-SLAM2降低38.7%；面对BONN数据集极端动态环境（多人搬运大件物品），RPE稳定性提升52%。实验室真实场景测试进一步验证，系统能正确识别被移动的“静态”物体（如实验台车）。

【结论】
这项研究突破了两视图几何的固有局限，通过三帧约束构建更鲁棒的运动感知体系。其意义不仅在于技术指标的提升，更开创性地证明：在适当几何框架下，传统方法仍可超越复杂深度学习模型。未来工作可探索多模态传感器融合，进一步强化对透明/反光物体的处理能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号