高效的多视图立体视觉技术:结合深度感知迭代与混合损失策略
《Pattern Recognition》:Efficient Multi-View Stereo with Depth-Aware Iterations and Hybrid Loss Strategy
【字体:
大
中
小
】
时间:2025年10月02日
来源:Pattern Recognition 7.6
编辑推荐:
多视图立体视觉(MVS)方法通过学习构建成本体积优化深度估计,但现有方法在低纹理或重复纹理区域易失效。本文提出DI-MVS++网络,采用深度感知迭代器(DACC+2D ConvGRU模块)动态融合上下文引导的几何信息,并设计混合损失策略(HLS)和深度表示一致性损失(DRC),显著提升复杂场景的深度重建精度。实验表明DI-MVS++在DTU、BlendedMVS等数据集上表现最优,且泛化能力优异。
DI-MVS++是一种基于深度学习的多视角立体(Multi-View Stereo, MVS)方法,旨在从一系列校准的2D RGB图像中重建密集的3D几何结构。MVS技术在3D视觉领域中扮演着重要角色,广泛应用于自动驾驶、虚拟现实和增强现实等多个领域。传统的MVS方法通常依赖于手动设计的特征表示和相似性度量,这在低纹理或重复纹理区域中容易导致不准确的重建结果。随着深度学习的发展,研究者们开始探索基于学习的方法,以提高深度估计的精度和效率。
现有的基于学习的MVS方法在构建成本体积(cost volume)时,往往忽略了包含场景几何形状的深度图。这种忽略可能导致在低纹理或重复纹理区域中,重建结果不够理想。为了克服这一问题,本文提出了一种高效的多视角立体网络DI-MVS++,该方法通过引入一种深度感知迭代机制,有效地将上下文引导的深度几何信息整合到成本体积中,从而提升深度估计的准确性。DI-MVS++的核心创新在于其深度感知迭代器,它由两个关键模块组成:深度感知成本完成(Depth-Aware Cost Completion, DACC)模块和2D卷积门控循环单元(ConvGRU)模块。
DACC模块的作用是构建一个富含几何信息的深度感知成本体积(Depth-Aware Cost Volume, DACV)。该模块通过将上下文信息与生成的深度图相结合,使成本体积能够更好地捕捉场景的几何特征。这种整合方式不仅提升了深度估计的精度,还增强了模型在复杂场景中的适应能力。DACC模块的引入使得在构建成本体积的过程中,能够充分利用背景和邻近区域的信息,从而在低纹理区域中也能获得较为准确的深度估计。
接下来,2D ConvGRU模块用于处理DACV,通过一个从粗到细的优化过程,逐步细化深度图的精度。ConvGRU是一种基于门控机制的循环神经网络,能够有效地处理序列数据,适用于迭代优化过程。在DI-MVS++中,ConvGRU模块不仅处理了DACV,还结合了不同阶段的上下文信息,使深度估计更加稳定和准确。这种方法在保证计算效率的同时,提高了模型对复杂场景的处理能力。
为了进一步提升深度估计的鲁棒性,本文还提出了一种混合损失策略(Hybrid Loss Strategy, HLS)。HLS结合了分类损失和回归损失的优势,根据不同的训练阶段选择合适的损失函数。在初始阶段,当深度图的精度较低时,使用交叉熵损失(cross-entropy loss)对成本体积进行间接监督,有助于模型更好地学习几何特征。而在后续阶段,当深度图的精度较高时,采用L1损失(L1 loss)对深度图进行直接监督,能够更有效地优化深度估计结果。这种分阶段的损失策略不仅提高了模型的训练效率,还增强了其对不同场景的适应能力。
此外,为了缓解不同深度表示之间的差异,本文还引入了一种深度表示一致性损失(Depth Representation Consistency, DRC)损失。DRC损失通过图像重建的方式,确保不同阶段生成的深度图在几何表示上保持一致。这种一致性损失的引入,进一步增强了HLS的效果,使模型在不同阶段的训练过程中能够更加稳定地优化深度估计结果。
DI-MVS++的实验结果表明,该方法在DTU数据集和BlendedMVS数据集上均优于现有的最先进方法。在DTU数据集上,DI-MVS++不仅实现了更精确的深度估计,还表现出更快的推理速度。而在Tanks-and-Temples基准和ETH3D基准上,DI-MVS++展示了强大的泛化能力,能够在多种复杂场景中保持较高的重建精度。这些实验结果验证了DI-MVS++在提升深度估计精度和效率方面的有效性。
本文的主要贡献包括:首先,提出了DACC模块,通过整合上下文引导的深度几何信息,提升了成本体积的几何表示能力;其次,引入了HLS,通过分阶段使用不同的损失函数,增强了深度估计的鲁棒性;第三,提出了DRC损失,通过图像重建的方式缓解不同深度表示之间的差异,进一步优化了HLS的效果;最后,通过广泛的实验验证了DI-MVS++在多个数据集上的优越性能,展示了其在实际应用中的潜力。
DI-MVS++的结构设计充分考虑了多视角立体重建过程中遇到的挑战。通过引入深度感知迭代机制,该方法能够在不同阶段中逐步优化深度估计结果,从而提升整体的重建精度。DACC模块的引入,使得成本体积能够更好地捕捉场景的几何特征,尤其是在低纹理或重复纹理区域中,这种方法能够有效弥补传统方法在这些区域中的不足。而2D ConvGRU模块则通过其强大的序列处理能力,实现了对深度图的连续优化,提高了重建的效率和稳定性。
混合损失策略的提出,使得DI-MVS++能够在不同训练阶段中灵活地调整损失函数,从而兼顾深度估计的精度和效率。这种策略不仅适用于不同的场景,还能够根据模型的训练进度动态调整监督方式,确保模型在各个阶段都能获得最佳的优化效果。DRC损失的引入,则进一步增强了模型在不同深度表示之间的一致性,使得深度估计更加稳定和可靠。
在实际应用中,DI-MVS++的优势在于其高效的计算能力和出色的泛化能力。对于高分辨率场景的处理,DI-MVS++通过深度感知迭代机制有效降低了GPU内存的消耗,使得该方法能够在有限的硬件条件下运行。同时,DI-MVS++在多个公开数据集上的实验结果表明,该方法不仅能够处理常见的室内场景,还能够适应复杂的室外环境,展示了其广泛的应用前景。
综上所述,DI-MVS++通过引入深度感知迭代机制和混合损失策略,显著提升了多视角立体重建的精度和效率。该方法在多个数据集上的表现表明,它不仅能够克服传统方法在低纹理或重复纹理区域中的局限性,还能够在高分辨率场景中保持良好的计算性能。DI-MVS++的提出,为多视角立体重建技术的发展提供了新的思路和方法,具有重要的理论和应用价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号