编辑推荐:
本文聚焦深度学习驱动的目标位姿估计技术,系统梳理实例级、类别级、未知目标及关节体位姿估计方法,对比不同模态输入下的实现路径与性能差异,解析评估指标和基准数据集,展望多视图融合等前沿方向,为该领域研究提供全面参考。
目标位姿估计研究:从视觉到 6D 位姿重建的深度学习进展
摘要
目标位姿估计作为计算机视觉关键问题,在自动驾驶、机器人导航等任务中至关重要。现有综述多混合讨论传统与深度学习方法,且未全面界定实例级和类别级方法。本文详述实例级、类别级、未知目标及关节体位姿估计方法,填补现有综述对新兴领域讨论的空白。按输入数据模态不同,重点阐述基于深度学习的目标位姿估计方法的实现方式、应用领域、训练范式、网络架构及其优缺点,并比较这些方法在不同数据集上的性能。此外,全面梳理该领域的评估指标和基准数据集,深入分析其应用范围和在不同场景的适用性,揭示这些指标和数据集在推动技术进步和解决实际问题中的关键作用。针对当前技术瓶颈,从多视图融合、跨模态数据集成和新型神经网络的前沿探索出发,展望未来发展方向,为推动目标位姿估计领域的突破性进展提供全新思路和参考。
引言
目标位姿估计作为计算机视觉的重要分支,自 20 世纪 80 年代以来备受关注,旨在准确估计目标的 6 自由度(6DoF)位姿,即目标的 3D 旋转和 3D 平移信息。早期研究聚焦几何方法和特征点匹配,依赖图像与模型的对应关系计算目标位姿。后来的研究引入使用预定义模板匹配目标位姿或利用 3D 模型和投影变换估计位姿的方法。近年来,随着计算能力的提升和大数据的涌现,基于深度学习的目标位姿估计方法逐渐占据主导地位。这些日益完善的理论知识和最先进技术,使目标位姿估计在工业自动化、增强现实(AR)、人机交互等领域得到广泛应用。
在增强现实中,估计目标位姿是确定和跟踪现实世界中目标 3D 位置和方向的关键方面。AR 系统首先通过传感器实时捕获现实世界中目标的视觉和空间信息,然后应用目标位姿估计技术分析和理解目标在空间中的具体方向,使 AR 系统能够将虚拟目标与现实世界目标准确对齐,并动态调整目标的位姿信息,确保其与目标位置完美匹配,从而增强用户对现实环境的体验。
在工业自动化领域,机器人执行任务时对精度和可靠性要求极高,如准确抓取和放置零件或按设定顺序和位置组装零件。目标位姿估计技术使机器人能够准确识别每个零件的空间位置和方向,以执行精细操作并提高生产率。此外,该技术的引入使自动化系统能够执行更复杂的工业任务,不仅增强了生产线的灵活性,使其能够快速适应生产需求的波动,还显著减少了生产过程中对人工操作的依赖,推动工业自动化向更高水平发展。
传统的目标位姿估计方法将提取的特征点与 3D 模型中的特征点对应,并使用透视 n 点(PnP)算法求解目标在相机坐标系下的坐标,或通过将 2D 图像中的目标轮廓与 3D 模型匹配来计算目标位姿。此外,基于边缘和轮廓的方法使用 Canny 或 Sobel 等边缘检测算法提取图像中的边缘,然后将边缘与 3D 模型的投影进行匹配。这三种方法在处理局部特征、几何变换等方面具有显著优势,但计算复杂度高,且高度依赖目标的 CAD 模型,使得传统方法在实时、复杂环境和动态场景中存在一定局限性。另一方面,深度学习方法可以通过多层网络感知目标特征生成稳定的特征描述符,网络间的梯度传播使模型能够自动学习图像中的特征,从而提高目标位姿估计的性能。此外,大规模数据训练、各种轻量级网络以及剪枝和量化技术在实现实时估计性能的同时,增强了模型的泛化能力。基于深度学习的目标位姿估计方法已应用于各个行业,并在多个领域取得了显著进展,未来仍将具有竞争力。
根据研究人员是否使用目标的 CAD 模型,将目标位姿估计方法分为实例级目标位姿估计和类别级目标位姿估计。2019 年后,类别级目标位姿估计发展迅速,其优势在于无需目标模型即可估计新目标的位姿,同时能够处理结构复杂的关节体(如机械臂),表现出更强的适应性。此外,利用生成模型和自监督学习技术,这些方法可以减少对大规模标记数据的依赖,从而提高数据利用效率。因此,越来越多的研究人员将目光投向类别级、未知目标和关节体位姿估计。
如许多方法所述,输入数据的质量对模型的训练效果和最终性能至关重要。高质量的训练数据不仅提供丰富的特征信息,还有效减少噪声和偏差。特别是在具有复杂背景、遮挡和目标形状变化的实际应用场景中,高质量数据将显著提高模型的性能和可靠性。因此,本文还将详细探讨数据质量与模型性能之间的关系,并分析如何通过数据预处理、数据增强和形状变形技术优化输入数据,从而提高目标位姿估计的准确性。
总之,本文将聚焦近年来的相关技术,如实例级、类别级、未知目标和关节体的位姿估计。图 1 展示了本文的结构,以清晰呈现这些研究方向的分类和联系。
本文的主要贡献如下:
(1)选取近年来聚焦基于深度学习的目标位姿估计方法的高影响力计算机视觉论文,明确这些方法在精度方面的最新进展和应用范围。
(2)综合目标位姿估计的三个主要方向:实例级、类别级、未知目标和关节体的位姿估计。根据不同的输入数据类型和实现方法,阐述每种方法的基本原理、网络结构设计及其优缺点,概述不同方法之间的联系和发展。
(3)全面总结目标位姿估计任务中的关键数据集,深入分析其特点、规模和应用价值,探讨评估指标在评估算法准确性、鲁棒性和实时性能中的作用。通过对不同数据集和评估指标的性能比较分析,为读者选择评估标准提供见解,帮助其针对特定应用场景做出更明智的决策。
(4)最后,针对该领域存在的挑战,从网络架构、学习方法和应用领域等多个角度探讨目标位姿估计的未来发展方向。
实例级目标位姿估计
研究人员在特定实例的目标位姿估计方法上取得了显著的技术突破。他们利用卷积神经网络(CNN)、残差网络(ResNet)和动态图卷积网络(DGCNN)等结构,从 RGB 图像、RGB-D 图像或点云数据中提取特征,旨在解决各种环境下的目标位姿估计挑战。本文根据不同的输入数据对这些方法进行分析。
类别级目标位姿估计
上述所有方法均为实例级目标位姿估计,通常依赖于被测目标的 CAD 模型。相比之下,现实生活中的许多目标没有 CAD 模型,这限制了上述方法的应用。近年来,研究人员将注意力转向类别级目标位姿估计,旨在提高位姿估计的泛化能力。与依赖单一数据源的实例级方法不同,类别级方法……
未知目标和关节体的位姿估计
在计算机视觉中,未知目标和关节体的位姿估计研究具有重要意义和挑战性。这些任务的难点在于处理未知目标的独特形状和多样外观特征,以及关节体的复杂关节运动。对于未知目标,由于缺乏预先存在的几何模型和足够的训练样本,位姿估计更加困难。幸运的是,研究人员在这一领域取得了显著进展……
数据集
有效的数据集是推动目标位姿估计领域研究和发展的基础。近年来,研究人员构建了各种具有代表性的数据集,这些数据集不仅包含多样的目标类别,还涵盖了不同位姿变化、复杂背景、遮挡和噪声等多种挑战性因素。借助这些数据集,研究人员能够训练和评估各种算法模型,不断提高准确性……
现有挑战和未来前景
近年来,越来越多的研究人员将深度学习技术应用于目标位姿估计任务,并通过创新网络结构、多损失函数优化、注意力机制集成和多模态数据融合等策略,显著推动了该领域的发展。这些技术已在多个应用场景中证明了其广泛的实用价值。然而,随着应用场景的扩展,如何有效结合位姿……
结论
本文综述了基于深度学习的目标位姿估计的最新研究进展,涵盖了从实例级到类别级以及未知目标和关节体的方法。尽管存在遮挡、弱纹理和对称目标位姿模糊等挑战,研究人员通过创新网络架构、多模态数据融合和自监督……
CRediT 作者贡献声明
Jing Wang:撰写初稿、监督、调查、概念化。Guohan Liu:撰写初稿、监督、方法学、调查。Wenxin Ding:可视化、监督、方法学、概念化。Yuying Li:概念化、监督、方法学、调查。Wanying Song:资源、监督、方法学。
利益冲突声明
作者声明他们没有已知的可能影响本文所报告工作的竞争性财务利益或个人关系。
致谢
本研究得到中国自然科学基金(61901358)的支持。