利用高斯散射重建技术实现精确的一次性物体姿态估计

《Displays》:Accurate one-shot object pose estimation with Gaussian Splatting reconstruction

【字体: 时间:2026年02月08日 来源:Displays 3.4

编辑推荐:

  6D物体姿态估计框架融合3D高斯溅射重建与虚拟视角特征匹配,通过渲染多视角RGB-深度对建立2D-3D对应关系,结合PnP算法与优化器实现高效高精度估计。|3D Gaussian Splatting|6D pose estimation|virtual viewpoints|feature matching|pose optimization

  
Xiao Wang|Fei Zhao|Changjun Li|Guobiao Zhang|Zhihong Qin|Xuesong Mei
西安交通大学机械工程学院,中国陕西省西安市710115

摘要

我们提出了一种新颖且灵活的框架,用于从单目标图像中进行基于实例的6D姿态估计。与现有方法不同,我们的方法使用高斯分裂(Gaussian Splatting)从参考图像重建高保真度和密集的3D物体模型,提供更丰富的几何和外观线索。为了明确地将2D目标图像与3D规范模型联系起来,我们在重建的3DGS模型周围渲染一组虚拟视图,生成多个RGB-深度对以捕获多样的纹理和几何信息。鲁棒的特征匹配在虚拟视图和目标图像之间建立2D-2D对应关系,然后将其反投影到规范坐标系中以产生准确的2D-3D对应关系。首先通过PnP算法计算初始的6自由度(6-DoF)姿态,随后使用基于3DGS的姿态优化器进行细化。实验结果表明,与最先进的基线方法相比,我们的方法具有更高的准确性,这突显了将密集的3DGS重建与虚拟视图对应关系学习相结合对于精确的6D物体姿态估计的有效性。

引言

随着计算机视觉和机器人技术的快速发展,6D物体姿态估计已成为许多应用中的基本任务,包括机器人操作[1]、[2]、增强/虚拟现实(AR/VR)[3]、[4]和自动驾驶[5]、[6]。6D姿态估计的目标是准确确定物体在3D空间中的位置和方向,包括六个自由度(DoF):三个用于平移,三个用于旋转[7]。在各种感测模式[8]、[9]、[10]、[11]、[12]中,基于RGB的方法因其简单性、低成本和广泛的适用性而受到广泛关注。然而,从单张RGB图像估计6D姿态仍然具有很高的挑战性,主要是由于深度和尺度的固有不确定性,以及仅依赖于有限的颜色信息。对于基于实例的6D物体姿态估计,捕获相关的CAD模型[13]、[14]既昂贵又耗时。为了避免需要CAD模型,应该基于捕获的一组RGB参考图像来学习未见物体的关键信息。Gen6D[11]从参考图像中提取2D特征图,并使用这些特征进行物体定位和姿态细化。方法[10]、[15]在结构从运动(Structure-from-Motion, SfM)[16]过程中重建点云,其中特征描述符是基于深度模型[17]提取的。然后这些特征与从查询图像中提取的特征进行匹配,以建立2D-3D对应关系进行姿态估计。然而,这种方法需要训练一个专用的2D-3D匹配网络,并且重建的3D点云中的每个点都必须存储一个特征向量,使其严重依赖于训练过程。相比之下,GS-Pose[12]选择具有较大姿态变化的图像,并使用DINOv2[18]模型提取其特征。这些特征直接与查询图像的特征进行比较,以找到最相似的参考图像,从而提供初始姿态估计,随后使用3D高斯分裂(3DGS)模型[19]进行细化。尽管这种方法有效,但其初始姿态精度有限,因为估计的姿态直接来自数据集中最相似的参考图像的姿态。为了提高基于实例的6D姿态估计的性能,我们提出了一种新颖且高效的架构,用于从单目标图像估计物体的6D姿态,如图1所示。与OnePose++[10]不同,我们的方法从参考图像重建了高保真度和密集的3D物体模型,提供更丰富的几何和外观线索。与基于GS的方法[12]不同,我们的框架通过精心设计的策略显著增强了初始姿态估计,明确地将2D目标图像与3D规范空间联系起来。具体来说,首先将参考图像输入GS表面重建方法[20]以生成详细的3D模型。然后,我们引入了一种新策略,通过在3DGS物体周围渲染一组虚拟视图来将目标图像与重建的3D模型连接起来。通过这些虚拟视图,生成多个RGB和深度图对,使得3DGS模型的详细纹理和几何信息能够投影到多样的2D图像表示中。这使得3DGS模型的内容能够在2D图像域中得到有效解释。我们进一步将规范3D坐标从渲染的视图转移到目标图像中。通过使用鲁棒的特征匹配算法(例如SuperPoint[21]、LoFTR[17])在这些虚拟RGB图像和目标图像之间建立2D-2D对应关系,我们获得了目标图像中的像素子集与从虚拟视图渲染的深度图中的像素之间的匹配关系。考虑到虚拟相机的固有和外在参数,我们可以将这些匹配的像素反投影到3DGS模型的坐标系中,以恢复它们的3D坐标。这个过程产生了目标图像和重建的3D模型之间的可靠2D-3D对应关系。利用这些2D-3D对应关系,我们使用PnP算法[22]计算目标物体的初始6-DoF姿态。然后使用基于3DGS的姿态优化器[12]、[23]对初始姿态进行细化,以获得最终的物体姿态。总之,我们的主要贡献如下:
  • 即插即用的2D–3D匹配与3DGS: 通过将现成的预训练2D特征匹配器与3D高斯分裂的显式几何结构相结合,我们的方法无需任何特定于任务的训练即可构建准确的2D–3D对应关系。
  • 统一的姿态估计框架: 我们提出了一个灵活且模块化的流程,将提出的2D–3D匹配与可微分的3DGS优化相结合,实现了鲁棒和准确的6D姿态估计。
  • 最先进的性能: 我们的方法在LINEMOD和OnePose-Test数据集上取得了新的最先进结果。实现代码可在https://github.com/yeying256/6dgspose公开获取。

章节片段

3D重建和高斯分裂

3D重建是计算机视觉和图形学中的基本任务,传统方法依赖于多视图立体(MVS)[24]、[25]、SfM [16]、[26]和SLAM [27]、[28]从2D图像中恢复3D几何结构。Wang [29]提出了一个完全自动化的框架,用于从五张标准口腔照片中高精度重建3D牙齿。Yang [30]提出了ART-InvRec,一种对抗性训练框架,通过防御来实现旋转不变的3D重建

3D高斯分裂重建

给定点云和一组具有已知内在和外在参数的图像,可以通过迭代的、基于渲染的优化过程构建3D辐射场,无论是神经网络的[31]、[53]还是显式的[12]、[19]、[20]。为了在保持高保真重建的同时确保训练和推理效率,我们采用高斯分裂方法来构建目标物体的紧凑且准确的3D表示。

初始物体姿态估计

给定一个物体的重建3D高斯模型,我们提出了一种从单目标图像估计初始物体姿态的新策略。值得注意的是,与OnePose++ [10]中采用的SfM流程产生的传统3D点云模型不同,本工作中使用的3D高斯模型为初始相机姿态估计提供了更紧凑和稳健的表示。
为了估计初始姿态,我们的目标是将编码在

姿态细化

基于上一节估计的初始6D物体姿态,本节介绍了通过基于我们的3DGS模型的迭代差分优化来细化姿态的过程。

实现细节

我们的算法在配备AMD 3600X CPU、RTX 3090 GPU和32 GB RAM的台式机上进行了测试。系统运行Ubuntu 20.04,实验在Conda环境中进行,并使用PyTorch部署。
在OnePose-test数据集中,我们配置了一组超参数来优化从单目RGB图像提出的6D姿态估计算法。我们使用了LoFTR [17]特征提取器和匹配器,置信度阈值设置为0.94。为了生成虚拟视图,使用了10种不同的

结论

在本文中,我们提出了一种利用3DGS高质量渲染能力的新6D物体姿态估计框架。通过生成详细的RGB图像和深度图,我们设计了一种精确的2D-3D匹配方法,显著提高了姿态估计的准确性,特别是在高纹理场景中。我们的方法在OnePose-Test数据集上取得了最先进的结果,并且在LINEMOD-Test数据集上相比GS-Pose等现有方法有了显著改进。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:Fei Zhao报告称获得了中华人民共和国科技部的财务支持。Fei Zhao报告称获得了国家自然科学基金的财务支持。Fei Zhao与西安交通大学存在关系,包括就业关系。Fei Zhao拥有专利#ZL 2025 1 1028127.9,授权给
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号