CCNeXt:一种有效的自监督立体深度估计方法

《Computer Vision and Image Understanding》:CCNeXt: An effective self-supervised stereo depth estimation approach

【字体: 时间:2025年10月15日 来源:Computer Vision and Image Understanding 3.5

编辑推荐:

  自监督立体深度估计方法CCNeXt通过ConvNeXt编码器与窗口化epipolar交叉注意力机制结合,在保持高精度的同时将计算效率提升10倍以上,在KITTI和DrivingStereo数据集上达到最优性能。

  深度估计在当今的机器人技术、自动驾驶和增强现实等领域发挥着至关重要的作用。这些应用场景通常受限于计算资源的使用情况,因此需要高效且准确的解决方案。立体图像对提供了一种有效的深度估计方法,因为只需要计算图像对中像素的视差,就可以在已知校正的系统中确定深度。然而,在多种场景中获取可靠的真实深度数据具有一定的难度,因此自监督技术成为一种可行的替代方案,尤其是在拥有大量未标记数据集的情况下。

在这一背景下,我们提出了一种新颖的自监督卷积方法,该方法在保持计算成本的同时,优于现有的卷积神经网络(CNNs)和视觉Transformer(ViTs)。我们设计的CCNeXt架构结合了现代的CNN特征提取器与一个创新的窗口化极线交叉注意力模块,同时对深度估计解码器进行了全面的重新设计。实验结果表明,CCNeXt在KITTI Eigen Split测试数据集上取得了具有竞争力的指标,并且运行速度比当前最佳模型快10.18倍。此外,在KITTI Eigen Split改进真实数据集和DrivingStereo数据集上,CCNeXt取得了所有指标的最先进结果,优于近期提出的其他技术。

为了确保结果的完全可重复性,我们的项目可以在GitHub上访问,地址为https://github.com/alelopes/CCNext。在引入CCNeXt之前,深度估计主要依赖于两种方法:单目相机和立体相机。单目深度估计技术需要从单个图像中学习米或相对深度信息,通常需要监督训练,或者通过单目视频估计额外参数,如相机参数。相比之下,立体系统可以通过计算两个相机图像中像素的视差来解决深度估计问题。对于校正后的图像,知道相机的内参和外参就足以将深度估计转化为立体匹配问题。自监督方法也可以应用于立体系统,其主要目标是在不依赖真实数据的情况下建立左右图像之间的对应关系。由于相机系统是已知的,立体系统的主要优势在于无需估计帧间的相机姿态,这在涉及物体运动的复杂场景中尤为重要。

CNNs在深度估计和立体匹配任务中已经被广泛应用。然而,近年来,ViT架构在计算机视觉领域逐渐受到重视。尽管有一些研究试图解释ViTs与CNNs之间的差异或ViT技术的有效性,但许多ViT提案在与基础CNNs基线(如ResNet)进行比较时,往往忽略了方法的运行时间,也未能考虑性能与运行时间之间的权衡。这种权衡在自监督立体深度估计领域尤为明显,因为先前的方法通常面临两个基本限制:计算负担和性能指标。一方面,基于Transformer的立体深度估计方法,如ChiTransformer,虽然在性能指标上达到最先进水平,但需要较高的计算资源和内存,限制了其在实时或嵌入式应用中的使用。另一方面,轻量级的CNNs设计,如Monodepth2和ESNet,虽然在延迟方面表现良好,但在低纹理或遮挡区域的准确性上往往不足。

因此,深度估计领域仍然面临如何在效率和准确性之间取得平衡的挑战。为了应对这一挑战,我们引入了CCNeXt架构,这是一种基于现代ConvNeXt主干网络的自监督立体深度估计方法,旨在在保持计算效率的同时提高性能指标。CCNeXt特别设计了窗口化极线交叉注意力模块和一个轻量级解码器,从而在运行速度上显著优于最先进方法ChiTransformer,并在多个数据集上取得最佳结果。

在编码器部分,我们改变了标准的ResNet编码器,采用了更小版本的ConvNeXt特征提取器,并在第一个卷积块中加入了瓶颈模块,从而在更大的跳接连接维度上获得更好的特征表示。我们的模型使用了左右图像对之间的共享权重网络,并结合了一种新颖的窗口化极线交叉注意力机制,使得左右特征对之间的特征表示可以相互流动。我们还重新设计了双视角训练策略,以减少运行时间,并提出了一个名为ICEP的模块,以增强高维输出。

在KITTI数据集上,CCNeXt在三个关键深度估计指标(AbsRel、SqRel和最大相对误差)上取得了最先进结果,同时比当前最佳模型快10.18倍。在KITTI改进真实数据集和DrivingStereo数据集上,CCNeXt在所有深度指标上均取得了最佳结果,优于单目、单目-立体和立体自监督技术。此外,我们还进行了统计分析,以比较我们的模型与其他文献结果的差异,这有助于更全面地评估不同数据集在深度估计任务中的表现。

总的来说,与以往的自监督立体方法相比,CCNeXt在保持计算效率的同时,实现了更高的准确性。我们通过引入现代的ConvNeXt主干网络、窗口化极线交叉注意力机制和一个轻量级解码器,共同达到了这一目标。此外,CCNeXt的运行时间比当前最佳模型减少了几个数量级,使得其在实际应用中更加高效。

我们的工作主要有以下三个贡献:首先,我们提出了一种基于ConvNeXt的新型编码器-解码器架构,用于自监督立体深度估计,通过引入窗口化极线交叉注意力和编码器中的组合主干块,提升了特征提取能力,并在解码器中实施了一种名为ICEP的新策略。这一方法在低分辨率和高分辨率输出质量及指标上均表现出色,如消融实验所示。其次,我们的方法在KITTI数据集的三个关键指标上取得了最先进结果,并且比当前最佳模型快10.18倍,同时在KITTI改进真实数据集和DrivingStereo数据集的所有指标上均取得最佳结果。第三,我们进行了统计分析,比较了我们的模型与其他文献结果的差异,并对DrivingStereo数据集上的训练过程进行了分析,从而揭示了KITTI数据集在深度估计任务中的优缺点。

在方法部分,我们详细描述了CCNeXt架构的组成,包括编码器中的主干选择、主干块替换、窗口化交叉注意力机制,以及解码器中的卷积层位置调整和跳接块设计。完整的架构如图2所示。为了验证我们的方法,我们进行了广泛的实验,强调了实现细节和所使用的数据集。除了平均指标的比较,我们还进行了统计分析,因为指标差异正在缩小,使得仅通过平均预测指标的比较难以评估研究论文的性能。这可能是因为广泛使用单一数据集(如KITTI)导致的,而该数据集在某些情况下无法全面评估模型的性能。

在KITTI结果部分,我们提供了在Eigen Split和改进真实数据集上的指标结果,如表1所示,并在图5中进行了定性比较。对于改进真实数据集,CCNeXt在所有指标上均取得了最先进结果,优于所有其他报告的单目、单目-立体和立体自监督模型。对于原始的Eigen Split,我们的方法在AbsRel、SqRel和最大相对误差(δ < 1.25)指标上取得了最佳结果。ChiTransformer虽然在某些方面表现优异,但无法在所有指标上达到CCNeXt的水平。

在消融研究部分,我们通过分析不同阶段对最终结果的贡献,评估了模型的性能。我们首先逐步评估编码器的变化,然后比较了不同的编码器主干。实验结果表明,使用ConvNeXt作为编码器主干相较于ResNet,能够提供更可靠和有效的特征表示,特别是在AbsRel指标上,ConvNeXt表现出更显著的提升。这表明,改进的编码器主干在深度估计任务中具有重要的作用。

在局限性和未来方向部分,我们指出模型在三个方面存在局限:使用不同数据集进行推理、多数据集训练以及非校正系统。由于我们通过从2D到3D的逆向投影,再从3D到2D的透视投影来推断深度并生成重投影图像,因此需要依赖于相机系统的内部参数。这使得在未见过的数据集上进行推理可能存在一定的问题,特别是在使用预测的重标定视差进行处理时。此外,多数据集训练和非校正系统也对模型的泛化能力提出了挑战。未来的研究可以进一步探索如何在不同的数据集和系统中提升模型的性能,同时保持计算效率。

在结论部分,我们总结了CCNeXt的创新点。CCNeXt是一种新型的卷积网络架构,专门用于自监督立体深度估计。我们通过引入现代的卷积特征提取器和新颖的窗口化极线交叉注意力模块,提升了编码器的性能。同时,我们重新设计了广泛使用的Monodepth2解码器,以促进更好的反向传播和特征表示,从而实现更精确的深度估计。实验结果表明,CCNeXt不仅在多个数据集上取得了最佳结果,还在保持计算效率的同时实现了更高的准确性。这一成果为深度估计领域提供了一种新的解决方案,特别是在需要高精度和低延迟的场景中。

在作者贡献声明部分,我们列出了每位作者的贡献。Alexandre Lopes主要负责撰写和编辑论文、开发软件、提供资源、设计方法、进行调查、形式分析、数据管理以及概念设计。Roberto Souza负责撰写和编辑论文、验证方法、监督研究、设计方法、进行调查、获取资金、形式分析以及概念设计。Helio Pedrini负责撰写和编辑论文、监督研究、设计方法、形式分析以及概念设计。

在竞争利益声明部分,我们声明作者们没有已知的财务利益或个人关系,这些关系可能会影响本论文所报告的研究工作。

在致谢部分,我们感谢巴西国家科学技术发展委员会(grant #304836/2022-2)的财务支持。这种支持对于项目的顺利进行至关重要,使我们能够进行深入的研究和实验。

综上所述,CCNeXt为自监督立体深度估计提供了一种新的方法,结合了现代的卷积特征提取器和窗口化极线交叉注意力机制,同时优化了解码器的设计。这一架构在保持计算效率的同时,实现了更高的准确性,为深度估计领域带来了新的突破。通过在多个数据集上的实验,我们验证了CCNeXt的有效性,并展示了其在实际应用中的潜力。此外,我们的研究还揭示了KITTI数据集在深度估计任务中的优缺点,为未来的研究提供了有价值的参考。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号