几何感知的多视图立体图像特征增强

《Digital Signal Processing》:Geometry-Aware Feature Enhancement for Multi-View Stereo

【字体: 时间:2025年10月24日 来源:Digital Signal Processing 3

编辑推荐:

  多视图立体视觉(MVS)中,现有粗到细框架忽略粗阶段几何信息对细阶段特征增强的作用,导致重建结果不理想。本文提出GAFE-Net,通过概率体引导的特征优化(PVFO)、多级特征融合(MFF)和深度感知(DP)模块,有效整合粗阶段几何信息与语义特征,提升细粒度特征表达,构建GAFE-MVSNet模型。实验表明其在DTU和Tanks & Temples数据集上优于SOTA方法。

  在三维重建领域,多视角立体(Multi-View Stereo, MVS)技术一直是研究的热点。MVS旨在通过多张校准图像,利用立体匹配算法恢复场景的三维结构。近年来,随着深度学习技术的迅速发展,基于学习的MVS方法在精度和效率方面取得了显著进步。其中,粗到细(coarse-to-fine)框架成为主流方案,通过初步的深度估计来限定后续深度推理的深度候选范围,从而提升重建质量。然而,尽管这一框架在实践中取得了良好效果,许多现有的方法在粗阶段对几何信息的利用仍然不足,导致在细节结构提取和最终重建结果上存在一定的局限性。

本研究提出了一种新的几何感知特征增强网络(Geometry-Aware Feature Enhancement Network, GAFE-Net),旨在更有效地利用粗阶段的几何信息,以优化细阶段的特征提取,从而实现更高质量的三维重建。GAFE-Net的核心思想是将粗阶段的几何信息作为指导,提升细阶段特征的结构表示能力。为了实现这一目标,我们设计了多个关键模块,包括基于概率体积的特征优化模块(Probability Volume-guided Feature Optimization, PVFO)、多级特征融合模块(Multi-level Feature Fusion, MFF)以及深度感知模块(Depth Perception, DP)。这些模块协同工作,确保从粗阶段获得的几何信息能够有效地传递到细阶段,从而提升深度估计的准确性。

首先,PVFO模块的作用是利用粗阶段的概率体积对特征进行优化。概率体积能够反映参考点在不同深度候选值上的置信度,其中最大值对应于潜在的深度。因此,概率体积可以被视为一种隐式的几何信息。通过将这一信息用于优化粗阶段的特征,可以增强其在空间上的表示能力,为后续的细阶段特征提取提供更丰富的上下文信息。在这一过程中,PVFO模块不仅关注深度的估计,还通过概率体积对特征进行加权,使得优化后的特征能够更准确地捕捉物体的结构信息。

接下来,MFF模块的任务是将优化后的粗阶段特征与细阶段特征进行融合。这一融合过程旨在将粗阶段的几何信息和高阶语义信息传递到细阶段,从而提升细阶段特征的结构表示能力。通过多级特征融合,可以确保在不同尺度下,特征信息能够被有效地整合,避免因信息丢失而导致的重建误差。MFF模块的设计考虑了不同层次特征之间的关联性,使得融合后的特征能够更全面地反映场景的结构和纹理。

此外,为了进一步提升细阶段特征的深度感知能力,我们引入了DP模块。该模块通过将优化后的细阶段特征与粗阶段的深度信息进行结合,增强对深度的感知能力。深度感知能力的提升对于准确的深度估计至关重要,尤其是在纹理较弱或边缘区域,这些区域往往容易出现深度估计的误差。DP模块的设计使得细阶段的特征能够在深度信息的指导下进行更精确的匹配,从而提升整体的重建质量。

基于上述模块的设计,我们构建了一个高效的级联式MVS模型,称为GAFE-MVSNet。该模型结合了粗到细的框架和几何感知特征增强网络的优势,能够更全面地利用不同阶段的几何信息和特征信息。通过在DTU和Tanks & Temples等主流基准数据集上的实验验证,GAFE-MVSNet在点云重建方面表现出色,取得了优于现有方法的性能。这些实验结果不仅证明了GAFE-Net的有效性,还展示了其在不同MVS模型中的广泛适用性。

在本研究中,我们对现有MVS方法进行了深入分析,并指出了它们在粗阶段对几何信息利用不足的问题。许多现有的方法在粗阶段仅关注深度估计,而忽略了概率体积中蕴含的丰富几何信息。这种忽略导致了在细阶段特征提取时,缺乏足够的几何指导,从而影响了最终的重建质量。相比之下,GAFE-Net通过将概率体积中的几何信息与特征优化相结合,能够更有效地提升细阶段特征的结构表示能力。

此外,我们还发现,现有的MVS方法在处理不同尺度的特征时,往往缺乏对多级特征融合的系统性研究。因此,我们设计了MFF模块,专门用于多级特征的融合。MFF模块不仅能够将粗阶段的特征与细阶段的特征进行整合,还能够确保在不同层次上,特征信息能够被有效地传递和利用。通过这种融合方式,我们能够提升细阶段特征在空间和语义上的表示能力,从而增强深度估计的准确性。

在深度感知方面,现有的方法往往依赖于单一的深度估计策略,而未能充分利用粗阶段的深度信息。因此,我们引入了DP模块,通过将优化后的细阶段特征与粗阶段的深度信息进行结合,进一步提升深度感知能力。这一设计使得深度估计不仅能够反映像素的深度信息,还能够捕捉更复杂的几何结构,从而提升整体的重建质量。

为了验证GAFE-Net和GAFE-MVSNet的有效性,我们在多个数据集上进行了广泛的实验。DTU数据集是一个大型的室内基准数据集,专门用于评估MVS方法的性能。该数据集包含79个用于训练的扫描,18个用于验证的扫描,以及22个用于评估的扫描。每个扫描包含49张沿预定义相机轨迹拍摄的图像。DTU数据集的训练集涵盖了不同光照条件下的图像,总共有27097个训练样本。通过在DTU数据集上的实验,我们验证了GAFE-MVSNet在点云重建方面的优越性能。

Tanks & Temples数据集是一个常用于评估MVS方法泛化能力的数据集。该数据集包含多个场景,涵盖了不同的光照、纹理和结构复杂度。通过在Tanks & Temples数据集上的实验,我们进一步验证了GAFE-MVSNet在复杂场景下的性能表现。实验结果表明,GAFE-MVSNet在这些数据集上均取得了优异的重建效果,优于现有的多种方法。

此外,我们还对GAFE-Net的兼容性进行了评估。结果显示,GAFE-Net不仅能够独立运行,还能够被有效地嵌入到不同的MVS模型中,以提升其性能。这种兼容性使得GAFE-Net具有更广泛的应用前景,可以在多种不同的MVS框架中进行灵活部署。

在本研究中,我们还探讨了基于学习的MVS方法的最新进展。近年来,基于深度学习的MVS方法在多个方面取得了显著进展,包括深度估计的精度、特征提取的能力以及模型的泛化性能。其中,MVSNet [9] 作为一项开创性的工作,通过端到端的深度学习框架,依次预测每个视角的深度,并将这些预测的深度进行融合。然而,MVSNet在处理细节结构时仍然存在一定的局限性,尤其是在边缘区域和纹理较弱的区域,深度估计的误差较为明显。

为了解决这一问题,MVSNet++ [10] 提出了一种融合高阶特征和低阶特征的方法,以生成更丰富的细粒度特征,用于高分辨率深度估计。这种方法能够同时捕捉场景的上下文信息和空间信息,从而提升深度估计的准确性。随后,一些新兴的多阶段MVS模型 [1], [11], [12], [13] 开始采用特征金字塔网络(Feature Pyramid Network, FPN)和U-Net [15] 等结构,以提取多级特征,用于高分辨率深度估计。这些模型的共同框架如图1(a)所示,其中粗阶段的深度估计用于生成细阶段的深度假设。

在这一基础上,TransMVSNet [16] 进一步引入了Transformer [17],以在粗粒度特征层面提取长距离的上下文信息,从而提升对弱纹理物体的重建性能。MVSTER [6] 通过引入一个辅助的单目深度估计分支,在训练过程中增强了特征的语义表示能力,以学习更具深度区分性的特征。GeoMVSNet [2] 提出了一种几何融合网络,在粗阶段将细粒度的上下文特征与粗深度图进行融合,从而提升细阶段的结构特征提取能力。然而,这些方法在利用概率体积中的几何信息方面仍然存在不足,导致在细节结构提取时效果受限。

基于上述分析,我们提出了一种新的方法,即通过将概率体积中的几何信息用于优化细阶段的特征提取。概率体积不仅能够反映参考点在不同深度候选值上的置信度,还能够提供关于场景结构的隐式信息。因此,我们设计了一个巧妙的网络结构,利用概率体积来增强对应尺度下的特征结构表示能力。通过这种方式,我们能够确保从粗阶段获得的几何信息能够有效地传递到细阶段,从而提升深度估计的准确性。

在实验过程中,我们对GAFE-Net和GAFE-MVSNet进行了全面的测试。实验结果表明,GAFE-Net在多个方面都表现出色,尤其是在提升细阶段特征的结构表示能力方面。同时,GAFE-MVSNet在点云重建方面取得了优异的性能,优于现有的多种方法。这些结果不仅验证了我们方法的有效性,还展示了其在实际应用中的潜力。

此外,我们还对不同数据集进行了比较分析。DTU数据集和Tanks & Temples数据集作为两个主要的基准数据集,分别代表了室内和室外的MVS场景。通过在这些数据集上的实验,我们验证了GAFE-MVSNet在不同场景下的性能表现。实验结果表明,GAFE-MVSNet在这些数据集上均能够实现高质量的三维重建,这进一步证明了其在实际应用中的广泛适用性。

在本研究中,我们还关注了不同MVS方法的优缺点。现有的方法在粗到细框架中取得了一定的成功,但在几何信息的利用上仍有待改进。因此,我们提出了一种新的方法,即通过将几何信息与特征优化相结合,来提升深度估计的准确性。这种方法不仅能够解决现有方法在细节结构提取上的不足,还能够提升整体的重建质量。

总之,本研究提出了一种新的几何感知特征增强网络(GAFE-Net),通过将粗阶段的几何信息用于优化细阶段的特征提取,实现了更高质量的三维重建。GAFE-Net由多个关键模块组成,包括PVFO、MFF和DP模块,这些模块协同工作,确保从粗阶段获得的几何信息能够有效地传递到细阶段。通过构建GAFE-MVSNet,我们进一步验证了这一方法的有效性,并在多个数据集上取得了优异的性能。这些结果不仅证明了我们方法的创新性,还展示了其在实际应用中的潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号