YOSO-SLAM：面向动态场景的实时语义三维视觉SLAM框架及其在移动机器人中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING》：YOSO-SLAM: A Real-Time Object Visual SLAM for Dynamic Scenes with Semantic Three-Dimensional Mapping

【字体：大中小】 时间：2025年11月14日 来源：ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING 2.9

编辑推荐：

　　本文推荐一种基于YOLOv8与ORBSLAM3融合的视觉SLAM新框架YOSO-SLAM，该研究针对动态环境中传统VSLAM系统轨迹估计误差大、语义信息缺失的痛点，通过目标检测驱动的动态特征剔除与语义Octomap构建，在TUM RGB-D数据集上实现ATE降低97.92%的突破性精度提升，为无人机等移动机器人在复杂场景下的精准定位与场景理解提供关键技术支撑。

随着搭载相机的无人机等移动机器人技术的快速发展，视觉同步定位与地图构建（VSLAM）技术因其传感器成本低、可视化能力强等优势成为环境感知的核心手段。然而传统VSLAM系统如ORBSLAM3主要针对静态环境设计，在存在行人、车辆等动态物体的场景中会产生严重的轨迹漂移和地图失真。更关键的是，这些系统生成的地图缺乏对物体类别、空间关系等语义信息的描述，极大限制了机器人的高层决策能力。现有结合深度学习与几何约束的动态SLAM方案虽能提升精度，但普遍因计算复杂度过高难以满足实时性需求。

为解决这一矛盾，马来西亚理工大学的研究团队在《Arabian Journal for Science and Engineering》发表论文提出YOSO-SLAM框架。该研究通过将YOLOv8目标检测模型嵌入ORBSLAM3 pipeline，在保证实时性的前提下实现动态特征过滤与语义地图构建。实验表明，在动态干扰严重的TUM RGB-D数据集序列fr3_w_rpy中，系统将绝对轨迹误差（ATE）和相对位姿误差（RPE）分别降低97.92%和53.23%，同时以15-20帧/秒的速度生成带物体标注的语义Octomap。

关键技术方法主要包括：1）采用YOLOv8对320×320分辨率图像进行实时目标检测，通过边界框坐标过滤动态特征；2）结合深度滤波与RANSAC算法从点云中提取物体三维尺寸与质心信息；3）构建动态更新的对象数据库存储语义属性；4）基于Octree结构生成多分辨率语义地图，并通过颜色立方体标注物体类别。

研究结果验证了框架的有效性：

1.
动态特征剔除效果

在TUM RGB-D的fr3_w_xyz序列中，传统ORBSLAM3生成的Octomap存在明显的人物运动伪影（图8b-c），而YOSO-SLAM有效消除动态物体干扰（图8e-f）。定量分析显示，五个动态序列的ATE均显著改善，其中高动态场景的RMSE提升幅度达93.87%-97.92%。
2.
语义地图精度

使用ICL-NUIM数据集评估Octomap重建质量，通过迭代最近点（ICP）与KD树最近邻搜索（KNN）点云配准，所有序列的配准误差RMSE均低于0.07米（表7）。虽因深度滤波的边界框噪声导致部分物体立方体尺寸估计存在偏差（图14），但语义标签为场景理解提供了关键物体身份与位置信息。
3.
计算效率平衡

在Intel i7-9850H纯CPU环境下，系统通过降低检测分辨率平衡性能与精度。当YOLOv8输入分辨率从320×320提升至640×480时，ATE可进一步优化至0.01517米，但帧率会降至7-12帧/秒（表11），证明当前配置在精度与实时性间取得最优权衡。

该研究的突破性在于首次实现纯CPU支持的实时语义SLAM系统，通过轻量化目标检测替代计算密集的实例分割，为资源受限的移动平台提供可行解决方案。未来工作可探索GPU加速下的多模态几何约束集成，以及照明变化、长时间运行等复杂场景的适应性优化。YOSO-SLAM框架为服务机器人、工业巡检等动态环境应用提供了高精度、可解释的地图构建新范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号