《Sensors》:DMSG-SLAM: Cascaded Semantic and Geometric Filtering for RGB-D Tracking and Mapping in Dynamic Environments
编辑推荐:
传统视觉SLAM系统在动态环境中常因运动目标干扰而遭受定位漂移。尽管语义分割和基于深度的掩膜方法已提升了系统性能,但由于动态目标截断所导致的边界欠分割与漏检问题,这类方法仍可能受到限制。为应对这些挑战,研究人员提出了一种级联框架DMSG-SLAM,这是一种面向
传统视觉SLAM系统在动态环境中常因运动目标干扰而遭受定位漂移。尽管语义分割和基于深度的掩膜方法已提升了系统性能,但由于动态目标截断所导致的边界欠分割与漏检问题,这类方法仍可能受到限制。为应对这些挑战,研究人员提出了一种级联框架DMSG-SLAM,这是一种面向动态环境、融合深度掩膜(Depth-Mask)、语义信息与几何约束的级联式视觉SLAM系统。首先,采用轻量级目标检测网络并结合深度一致性生成类实例掩膜,以进行初步动态特征去除。随后,引入一种旋转感知的局部极线几何滤波机制,以抑制目标边界附近的残余特征,并缓解由遮挡或截断引起的感知盲区。在潜在动态区域内,依据估计的帧间旋转自适应切换极线阈值,从而在具有挑战性的运动条件下提供更保守的滤波效果。此外,系统还引入基于截断符号距离函数(TSDF)的稠密体素地图,以重建更一致的场景表面。基于TUM RGB-D数据集高动态序列的实验表明,DMSG-SLAM在动态环境中实现了具有竞争力的精度,相较于ORB-SLAM2,其定位性能最高提升可达90%。
该研究发表于《Sensors》,聚焦于动态环境下视觉同步定位与建图(Simultaneous Localization and Mapping,SLAM)系统易受运动物体干扰而产生定位漂移的问题。传统视觉SLAM方法以静态环境假设为基础,在现实场景中往往因行人、家具拖动、遮挡与快速相机运动等因素导致特征匹配退化、位姿估计不稳以及地图污染。已有几何法能够利用多视图几何、重投影误差或运动一致性剔除动态点,但缺乏语义理解,且通常依赖固定阈值,难以适应复杂场景。纯语义方法虽然可借助目标检测或语义分割识别已知动态类别,但又面临漏检、边界粗糙、未见类别泛化不足以及计算开销较高等问题。特别是在图像边界截断、严重遮挡和快速旋转等极端条件下,动态目标边界附近常残留污染特征,进而影响轨迹估计和地图质量。因此,开展一种兼顾实时性、鲁棒性与重建质量的动态RGB-D SLAM研究具有明确必要性。
针对上述问题,研究人员提出了DMSG-SLAM框架,整体遵循“掩膜优先、几何精化”的级联思想。该系统构建于ORB-SLAM2的RGB-D模式之上,在原有跟踪、局部建图与回环线程之外,增加了语义检测线程和稠密建图线程。前端先利用轻量级目标检测器获取候选动态区域,再结合深度一致性生成类实例掩膜,对动态特征进行首轮剔除;之后在潜在动态区域内引入旋转自适应的极线几何约束,对掩膜边界泄漏点、漏检目标以及低质量匹配点进行二次过滤;后端则在动态区域屏蔽基础上融合关键帧深度信息,增量构建全局点云和基于八叉树(Octree)的TSDF稠密体素地图。实验结果显示,该方法在TUM RGB-D与Bonn两类动态数据集上均取得了较强的泛化能力,在多数高动态序列中显著优于ORB-SLAM2,并表现出与多种先进动态SLAM方法相当的竞争性。其重要意义在于:该研究在保持实时性的前提下,实现了动态特征更精细的抑制与更清洁的一致性建图,为移动机器人路径规划、避障和场景交互等下游任务提供了更可靠的环境表示。
研究所采用的主要关键技术方法包括以下几方面:第一,以SSD检测器结合NCNN推理框架进行轻量级目标检测,并依据深度一致性在检测框内生成类实例动态掩膜;第二,采用Lucas–Kanade光流(稀疏光流跟踪)与DBSCAN密度聚类,在相邻帧间传播并重建掩膜,以减少逐帧检测开销;第三,在语义先验指导下估计基础矩阵(fundamental matrix),利用局部极线几何约束进行残余动态特征过滤,并根据估计帧间旋转执行阈值自适应切换;第四,在建图线程中利用关键帧RGB-D数据、位姿变换、体素下采样与统计离群点剔除构建稠密点云,并进一步采用基于Octree的TSDF进行在线稠密表面重建。实验样本主要来自TUM RGB-D数据集与Bonn RGB-D数据集中的高动态室内序列。
在研究结果方面,论文首先通过“4.1. TUM RGB-D数据集评估”验证了所提方法在典型动态环境中的定位性能。其中“4.1.1. 与基线算法的比较”表明,DMSG-SLAM相较于ORB-SLAM2在绝对轨迹误差(ATE)、相对平移误差(RPE中的RTE)和相对旋转误差(RPE中的RRE)上均有明显改善。研究人员指出,在高动态序列上,该系统平均可实现约90%的ATE改进,而在低动态序列中改进幅度约为20%,说明所提动态特征剪除策略能够显著降低动态干扰导致的漂移,并在低动态场景中维持与基线相当的稳定性。
“4.1.2. 与先进算法的比较”进一步将该方法与DS-SLAM、YOLO-SLAM、SG-SLAM、NGD-SLAM及RTS-SLAM进行了对照。结果显示,DMSG-SLAM在不同动态模式下具有较强竞争力。对于相机运动较小的序列,掩膜与几何约束的组合能够高效去除边界残余动态特征;对于旋转剧烈或目标快速运动的序列,尽管个别序列上并非最优,但仍取得第二优等较强结果,说明该方法对复杂动态扰动与大视角变化具有良好适应性。
“4.2. Bonn数据集评估”验证了方法在另一类高动态室内场景中的泛化能力。Bonn数据集包含多人随机运动、携物移动、目标跟踪和多人同步跳动等强动态情形。结果表明,在目标重叠、足部与地面深度差较小以及连续跟踪等困难场景中,轻量级检测器与几何补偿机制虽仍存在局部不足,但总体上该方法在多数序列中展现出稳定而有竞争力的定位性能,说明级联语义—几何策略能够跨数据集抑制复杂动态干扰。
“4.3. 消融实验”系统分析了各组成模块的贡献。研究人员分别比较了仅用检测框剔除、仅用极线几何、仅用动态掩膜、语义辅助几何约束、掩膜结合语义几何约束,以及最终的掩膜结合旋转自适应语义几何约束等变体。结果表明,不同模块均可在一定程度上提升动态环境中的定位精度,其中动态深度掩膜相较直接检测框剔除能保留更多静态可用特征,而语义引导的极线几何约束能够进一步对重点区域进行分层过滤。最终版本DMSG-SLAM(DM+S+GC)在五个序列中的四个上取得最佳精度,证明旋转自适应几何过滤对补偿掩膜不完整、提升复杂运动条件下的鲁棒性具有关键作用。
在该部分的定性结果中,研究人员还展示了不同策略对动态特征点保留情况的影响:仅使用检测框会因框选范围过大导致静态匹配点不足甚至跟踪失败;仅使用固定阈值极线几何虽能减少动态点,但仍保留部分干扰;仅使用掩膜虽能显著压制人体上的特征点,但对边缘泄漏和被拖动椅子等伴随运动目标处理不足;融合动态掩膜与旋转自适应语义—几何约束后,运动物体上的残余点被更准确清除。对于图像边界附近的漏检情况,论文进一步证明了框外极线几何回退机制的有效性,即通过全局极线一致性检验抑制未被检测网络覆盖的动态点。针对阈值策略,结果显示固定严格阈值会在轻微旋转时误删大量静态背景点,固定宽松阈值则在强动态条件下保留过多干扰,而自适应切换策略在跟踪连续性与动态抑制之间实现了更合理的平衡。深度一致性阈值与阈值参数敏感性分析也表明,默认参数设置在边界完整性、背景抑制、误差均值和波动稳定性之间提供了较均衡的折中。
“4.4. 建图结果分析”表明,所提方法不仅改善了位姿估计,也提升了地图质量。在TUM RGB-D序列上的可视化结果显示,未去除动态物体时,稠密点云会出现由移动人体造成的明显伪影;在动态过滤后,点云地图更加干净。进一步地,基于TSDF的体表示能够生成更平滑、连续的表面,相比传统点云更适合表达静态场景几何结构。论文指出,TSDF融合平均每帧约13.6 ms,最终可生成具有纹理信息的表面点云与活动体素集合,说明该模块在控制内存占用的同时具备在线稠密重建能力。不过,研究人员也观察到少量颜色渗 bleeding 与纹理模糊现象,其原因主要在于增量融合过程中由轨迹微小抖动引起的多视角颜色错位。
“4.5. 时间分析”则验证了系统的实时性。研究人员记录了每帧平均跟踪时间,并与多种方法比较。结果显示,DMSG-SLAM在实验平台上的平均处理时间为25.32 ms,满足30 fps RGB-D相机的实时要求。相较ORB-SLAM2,该方法增加了约5 ms计算开销,主要来源于语义掩膜生成和旋转自适应极线几何剔除,但这一代价换来了显著的动态干扰抑制与定位精度提升,因此具有较好的工程实用性。
在讨论部分,论文强调该框架通过“基于掩膜的预过滤+几何回退”的顺序策略,有效缓解了语义边界覆盖不完整的问题,并利用旋转自适应几何约束增强了复杂运动条件下的跟踪稳定性。与此同时,研究人员也明确指出其局限:该方法仍可能误删部分静态特征,若几何阈值设置不当会影响性能;自适应判据本质上仍是启发式规则,其效果受运动估计精度、阈值选择和场景动态复杂度影响;此外,在嵌入式或边缘计算平台上的运行代价仍需进一步评估,尤其是目标检测模块构成了主要运行时开销。未来工作将聚焦于参数自动调节、模型压缩、面向资源受限平台的优化,以及延迟颜色融合以改善静态稠密重建真实性等方向。
研究结论部分可译为:该研究提出了DMSG-SLAM,这是一种面向复杂动态环境的RGB-D SLAM系统。通过采用“基于掩膜的预过滤并辅以几何回退”的顺序策略,系统有效解决了语义边界覆盖不完整的问题,而旋转自适应几何约束则提升了挑战性运动条件下的跟踪稳定性。基于TUM和Bonn数据集的实验评估表明,DMSG-SLAM在多数动态场景中实现了更准确的位姿估计以及更清晰的基于八叉树TSDF表面重建。然而,该框架仍可能导致部分静态特征被误删,且若干几何阈值目前仍需人工调节。此外,自适应判据仍具有启发式特征,其有效性可能依赖于运动估计精度、阈值选择及场景动态性。再者,尽管该框架在实验平台上表现出实际有效性,但其在嵌入式或边缘计算场景中的计算代价仍值得进一步研究。特别是,目标检测模块构成了主要运行时开销,而光流、DBSCAN聚类和几何滤波阶段相对轻量。未来工作将集中于参数自动适应、模型压缩、面向资源受限部署的平台特定优化,以及采用延迟颜色融合以实现更真实的静态稠密重建。