基于单目相机的高斯溅射式 SLAM 新突破:UniDepth 助力实现高精度场景重建

【字体: 时间:2025年04月27日 来源:Array 2.7

编辑推荐:

  在视觉同步定位与建图(VSLAM)领域,传统地图表示方法存在诸多局限。研究人员开展了 UDGS-SLAM 研究,将 UniDepth 网络集成于高斯溅射框架进行深度估计。结果显示,该方法在 TUM RGB-D 数据集上性能优异。这为开发更高效的 SLAM 方法提供了新方向。

  在当今科技飞速发展的时代,虚拟现实、增强现实以及机器人导航等领域对精确的环境感知和场景构建技术需求日益增长。视觉同步定位与建图(Visual Simultaneous Localization and Mapping,VSLAM)作为关键技术,能够帮助移动设备在未知环境中确定自身位置并构建地图。然而,传统的地图表示方法,无论是基于手工制作的稀疏表示,还是密集表示,都存在明显的缺陷。它们严重依赖 3D 几何特征,只能表示环境中被观测到的部分,并且无法从不同相机视角生成逼真的高保真新场景,这在虚拟现实和增强现实应用中是至关重要的。为了解决这些问题,研究人员开始探索新的方法,其中基于隐式体素逼真表示的技术,如神经辐射场(Neural Radiance Fields,NeRF)和高斯溅射(Gaussian Splatting,GS)受到了广泛关注。但 NeRF 方法存在计算需求高、训练时间长、容易过拟合以及灾难性遗忘等问题。相比之下,GS 虽然具有计算效率高、适应大场景等优势,但目前大多数研究主要集中在利用 RGB - D 输入,对于单目相机的应用研究较少。在这样的背景下,开展这项研究显得尤为必要。
来自国外的研究人员提出了 UDGS - SLAM(UniDepth assisted Gaussian splatting for monocular SLAM)这一创新方法。他们旨在利用单目相机实现高精度的场景重建和相机轨迹优化,同时避免对 RGB - D 传感器的依赖。通过一系列实验,研究人员发现 UDGS - SLAM 在 TUM RGB - D 数据集上表现出色,能够实现高保真渲染图像和低相机轨迹绝对轨迹误差均方根(ATE - RMSE)。这一研究成果对于推动 VSLAM 技术在单目相机场景下的应用具有重要意义,为相关领域的发展开辟了新的方向,论文发表在《Array》。

研究人员开展研究用到的主要关键技术方法如下:首先,利用 UniDepth 网络从单目相机捕获的 RGB 图像中估计场景深度。其次,引入统计滤波方法,通过保留深度值在四分位数间距(IQR)内的数据,去除极端值,确保深度图的局部一致性。最后,采用基于高斯溅射的可微渲染技术,结合相机位姿估计和地图参数更新,实现 3D 场景的重建和优化。

下面介绍研究结果:

  • 3D 高斯场景表示:将场景表示为一组 3D 高斯,每个高斯由中心位置μiW、RGB 颜色ci、协方差矩阵ΣiW和不透明度oi定义。这种表示方式能够有效捕捉场景的几何和外观特征,为后续的渲染和优化提供基础。
  • 颜色和深度可微渲染通过溅射:通过对 3D 高斯进行排序和投影,利用相机位姿和相机内参矩阵,将其转换为 2D 像素空间,然后通过 alpha 混合生成 RGB 和深度图像。这种渲染方式是可微的,便于计算梯度,从而优化高斯参数和相机位姿。
  • 可微相机位姿估计:利用链式法则和 Lie 代数与 Lie 群之间的指数和对数映射,推导了投影 2D 高斯对相机位姿的导数,实现了相机位姿的可微估计,为相机轨迹的优化提供了支持。
  • SLAM 管道
    • 神经深度估计:使用 UniDepth 网络估计场景深度,发现 ViT - style 大尺寸模型编码器精度最高。但估计的深度图像存在局部不一致问题,通过统计滤波解决,提高了轨迹和地图估计的准确性。
    • 渲染和损失计算:渲染 3D 高斯得到 RGB 和深度图像,计算与输入图像的光度误差和几何误差,通过加权组合得到总损失函数,用于优化高斯参数和相机位姿。
    • 跟踪和映射
      • 关键帧管理:选择关键帧进行地图参数和相机位姿的优化,通过评估共视性和基线距离确定新关键帧的添加。
      • 高斯插入和修剪管理:相机移动时,在新观察区域插入高斯,采用结构化放置策略和自适应密度控制机制;对于长时间未观察到的高斯进行修剪,保证地图的准确性。
      • 跟踪和映射:利用关键帧窗口优化 3D 高斯参数和相机位姿,通过最小化损失函数实现,确保地图的一致性和高保真渲染。

    • 管道初始化:根据滤波后的 UniDepth 估计深度图像初始化高斯,通过梯度下降进一步优化,相机初始位姿根据情况设置。

  • 实验和结果
    • 实验设置:在 TUM RGB - D 数据集上进行评估,使用 Intel Core i7 - 13700H、32GB RAM 和 Nvidia GeForce RTX 4070 GPU 进行测试,采用 ATE - RMSE 评估相机位姿估计,PSNR、SSIM 和 LPIPS 评估地图和渲染质量,与多种基于单目和 RGB - D 的方法进行对比。
    • 评估
      • 相机跟踪精度:UDGS - SLAM 在不同序列上表现良好,在 fr1 - desk 序列中 ATE - RMSE 最低,在 fr2 - xyz 序列中仅次于 DepthCov - VO,在 fr3 - office 序列中虽有不足,但也优于部分基线方法。
      • 渲染结果:UDGS - SLAM 在所有序列上渲染指标良好,在 fr2 - xyz 和 fr3 - office 场景中指标更高,且优于单目和 RGB - D 的部分方法,与 MonoGS 的 RGB - D 配置性能相当。


  • 消融研究:对 UniDepth 网络不同编码器骨干进行分析,发现 UniDepth V1 网络结合 ViT Large 模型和统计滤波时,ATE - RMSE 最低,渲染指标最高。

研究结论表明,UDGS - SLAM 成功地利用 3D 高斯作为底层地图表示,借助 UniDepth 网络生成的深度图和统计滤波方法,实现了无需场景或相机运动先验知识的逼真渲染、密集映射和相机轨迹优化。该研究成果在单目相机与高斯溅射结合方面展现出巨大潜力,为开发更复杂高效的 SLAM 方法提供了新途径。然而,研究也存在一些可改进之处,如整合图像 - IMU 深度估计和神经深度估计可能获得更精确深度图,探索引入回环闭合可提高地图的全局一致性,对动态场景可通过运动分割等方式进一步处理。这些方向为后续研究提供了重要参考,有望推动 VSLAM 技术的进一步发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号