DCV-MVSNet:用于完整多视图立体的动态成本体积模型
《Neurocomputing》:DCV-MVSNet: Dynamic cost volume for complete multi-view stereo
【字体:
大
中
小
】
时间:2025年10月10日
来源:Neurocomputing 6.5
编辑推荐:
多视图立体视觉中,针对低纹理区域和模糊边缘的特征提取与成本体积构建难题,提出DCV-MVSNet网络。通过Edge Aware Embedding模块融合边缘与纹理信息,设计Uncertainty-Guided Dynamic Cost Volume模块动态聚合空间上下文,并引入Uncertainty-Driven Attention Loss缓解数据分布不平衡问题,显著提升重建质量,在DTU、Tanks & Temples、ETH3D数据集均达最优。
在多视角立体(Multi-View Stereo, MVS)任务中,高质量的三维重建高度依赖于鲁棒的特征匹配和精确的深度估计。然而,传统方法在处理纹理不足或边缘模糊的区域时,往往难以提取出准确的特征表示,导致匹配的不确定性增加。此外,对这些不确定性较高的区域使用静态的像素级代价体积进行正则化,进一步限制了深度估计的可靠性。为了解决这些问题,我们提出了一种新的网络结构——DCV-MVSNet,旨在实现更准确的特征提取,并构建一个可靠的代价体积。本研究特别设计了“边缘感知嵌入”(Edge Aware Embedding, EAE)模块,通过将边缘和纹理信息隐式地嵌入到多尺度特征图中,从而提升特征匹配的准确性。同时,我们提出了“不确定性引导的动态代价体积”(Uncertainty-Guided Dynamic Cost Volume, UG-DCV)模块,利用不确定性引导的空间邻近信息进行动态聚合,以实现更稳健的深度估计。针对不确定性数据分布不平衡的问题,我们引入了“不确定性驱动的注意力损失”(Uncertainty-Driven Attention Loss, UDA Loss)。在DTU、Tanks & Temples和ETH3D等数据集上的大量实验表明,我们的DCV-MVSNet在定性和定量性能方面均优于其他最先进的方法。
MVS是三维计算机视觉中的基础任务之一,其目标是从一系列校准好的图像中恢复出密集的三维场景几何表示。在过去几十年中,MVS技术被广泛研究并应用于自动驾驶、虚拟现实/增强现实以及工业检测等领域。传统的MVS方法虽然取得了显著成果,但在处理模糊边缘和纹理缺失区域时仍面临重大挑战。随着深度学习技术的发展,越来越多的MVS方法开始整合深度学习技术,通过将多视角的特征进行变形以构建代价体积,并利用三维卷积神经网络(3D CNN)对代价体积进行正则化处理,从而估计出深度图。这种方法在重建质量和效率方面相较于传统方法有了显著提升。
MVS任务的核心在于找到参考图像与源图像之间像素的对应关系,以估计一致的深度值。为了进一步提升深度估计的细节质量,获取准确的特征表示是关键。一些基于学习的MVS方法采用多尺度特征提取或非局部特征增强策略来实现更鲁棒的特征表示,例如基于变形卷积的方法、基于Transformer的方法、基于循环神经网络(RNN)的方法以及基于级联结构的方法。然而,由于这些方法并未充分考虑边缘信息,因此在模糊边缘和纹理缺失区域仍然存在特征表示不足的问题,从而限制了鲁棒的特征匹配能力。
此外,大多数现有的基于学习的MVS方法在构建代价体积时,通常采用平面扫描算法生成静态的像素级代价体积,然后通过正则化处理生成概率体积。然而,事实上在纹理缺失和模糊边缘区域,很难找到参考图像与源图像之间准确的像素匹配,而不准确的特征表示进一步加剧了这种不确定性。Effi-MVS+方法通过进一步编码深度特征和上下文特征来构建动态代价体积,显著提升了重建质量。然而,该方法在编码上下文信息时,对所有像素一视同仁,没有特别关注纹理缺失和模糊边缘等挑战性区域,因此直接使用上述方法构建的静态代价体积进行正则化,会导致在挑战性区域的深度估计不准确,进而影响后续重建过程的完整性。此外,模糊边缘和纹理不足区域的像素在深度估计中具有更高的不确定性,意味着低不确定性区域的像素在整体中占据主导地位。大多数基于学习的MVS方法在计算损失时,对不同不确定性级别的区域进行同等对待,导致不确定性数据分布严重失衡。低不确定性区域的样本在训练过程中容易占据主导地位,而高不确定性区域的样本则贡献有限,使得网络倾向于预测低不确定性区域。
为了解决上述问题,我们提出了一种名为DCV-MVSNet的网络结构,其采用由粗到细的框架,集成了边缘感知嵌入(EAE)模块用于特征提取,并使用不确定性引导的动态代价体积(UG-DCV)模块来动态构建代价体积。该网络在不确定性驱动的注意力损失(UDA-Loss)的监督下进行训练。具体而言,我们的EAE模块通过自适应的边缘仿射变换来增强对细节的控制能力,并引入注意力机制以进一步捕捉全局上下文信息。这样,边缘和纹理信息被隐式地嵌入到特征金字塔网络(Feature Pyramid Network, FPN)的中间特征中,从而实现更精确的多尺度特征表示。此外,我们提出的UG-DCV模块能够构建更准确的代价体积,该模块通过不确定性引导的方式,动态地聚合像素级和块级的代价体积。首先,UG-DCV模块通过捕捉像素的二维邻近信息,将静态的像素级代价体积扩展为块级的代价体积。随后,该模块根据学习到的不确定性图,对像素级和块级的三维代价体积进行自适应的聚合。最后,我们引入了UDA-Loss模块,以缓解不确定性数据分布的不平衡问题。在损失计算过程中,UDA-Loss根据每个像素的不确定性水平动态调整权重,引导网络关注那些不确定性较高的区域。得益于更丰富的边缘和纹理信息的特征表示以及不确定性引导的动态代价体积,我们的方法在DTU数据集上实现了显著的重建质量提升,特别是在完整性方面。此外,DCV-MVSNet在Tanks & Temples和ETH3D等更复杂的基准数据集上也表现出良好的泛化能力,如图1所示。
本研究的主要贡献如下:首先,我们设计了边缘感知嵌入(EAE)模块,该模块能够将更丰富的边缘和纹理信息隐式地嵌入到多尺度特征图中,从而提升特征匹配的鲁棒性。其次,我们提出了不确定性引导的动态代价体积(UG-DCV)模块,通过动态聚合像素级和块级的代价体积,提升深度估计的完整性。第三,我们引入了不确定性驱动的注意力损失(UDA-Loss),以缓解不确定性数据分布的不平衡问题,从而提升高不确定性区域的重建质量。最后,我们的方法在DTU数据集、Tanks & Temples和ETH3D基准数据集上进行了广泛评估,取得了当前最先进的性能。
在传统MVS方法中,主要目标是确定每张图像中每个像素的深度或视差值,从而表示对应的三维点与相机之间的距离。根据输出表示方式,MVS方法可以分为三类:(1)直接点云重建,(2)体素重建,以及(3)深度图重建,用于密集的场景几何重建。其中,深度图重建方法因其对场景的细节表现力强,而被广泛应用。然而,传统的深度图重建方法在处理纹理缺失或边缘模糊的区域时,往往无法提供足够准确的特征表示,导致匹配结果的不确定性增加。因此,如何在这些区域中获得更精确的特征表示,是提升MVS任务性能的关键。
在方法论部分,我们详细介绍了本研究的主要贡献。首先,在第3.1节中,我们回顾了DCV-MVSNet的整体架构。接着,在第3.2节中,我们描述了边缘感知嵌入(EAE)模块的设计。该模块通过自适应的边缘仿射变换增强对细节的控制能力,并引入注意力机制以捕捉全局上下文信息,从而将边缘和纹理信息隐式地嵌入到特征金字塔网络的中间特征中,实现更精确的多尺度特征表示。在第3.3节中,我们介绍了不确定性引导的动态代价体积(UG-DCV)模块。该模块通过不确定性引导的方式,动态地聚合像素级和块级的代价体积,从而构建更准确的代价体积,提升深度估计的鲁棒性。最后,在第3.4节中,我们阐述了不确定性驱动的注意力损失(UDA-Loss)模块的设计。该模块在损失计算过程中,根据每个像素的不确定性水平动态调整权重,引导网络关注高不确定性区域,从而缓解不确定性数据分布的不平衡问题。
在数据集部分,我们主要讨论了用于评估DCV-MVSNet的三个数据集:DTU、Tanks & Temples和ETH3D。DTU数据集是一个在实验室环境下控制良好的室内多视角立体数据集,具有固定的相机轨迹。在实验中,我们将DTU数据集划分为训练集、验证集和评估集,与MVSNet的方法一致。Tanks & Temples数据集则是在现实世界中的室内和室外场景下采集的大型数据集,提供了真实的视频序列,并分为8个场景的中级子集和6个场景的高级子集。ETH3D数据集是一个包含复杂场景的基准数据集,用于评估深度估计和三维重建的性能。
尽管DCV-MVSNet在多个数据集上表现出强大的性能,但其仍然存在一定的局限性,这些局限性部分源于MVS任务本身的基础挑战。例如,在某些持续存在大范围匹配不确定性的场景中,如大面积纹理缺失的区域(如空白墙壁)或边缘模糊的区域,我们的方法可能无法达到理想的效果。此外,对于具有复杂几何结构或高度动态变化的场景,DCV-MVSNet在特征提取和代价体积构建过程中可能需要更多的计算资源,从而影响其在实际应用中的效率。因此,在未来的研究中,我们计划进一步优化网络结构,以提高其在不同场景下的适应性和泛化能力。
综上所述,本研究提出了一种新的基于学习的MVS网络——DCV-MVSNet,旨在实现高质量的三维重建。我们设计了边缘感知嵌入(EAE)模块,以提升特征匹配的鲁棒性;同时,我们提出了不确定性引导的动态代价体积(UG-DCV)模块,以提升深度估计的完整性;此外,我们引入了不确定性驱动的注意力损失(UDA-Loss)模块,以缓解不确定性数据分布的不平衡问题。通过在多个数据集上的实验验证,我们的方法在重建质量、效率和鲁棒性方面均表现出优异的性能,为MVS任务的进一步发展提供了新的思路和方法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号