编辑推荐:
本文提出 AC-MVSNet 方法,用于多视图立体(MVS)重建。通过新型多尺度特征提取器 CADS-Msfe 和深度图优化网络 E-Refinement,在减少 GPU 内存消耗和运行时间的同时,提升重建的完整性、准确性和整体质量。
引言
多视图立体(MVS)重建长期以来都是计算机视觉研究的热点。它能够借助一组多视图图像和相应相机位姿,恢复真实场景中的 3D 点云。如今,3D 场景重建在自动驾驶、航空测量、嵌入式 AI 等众多领域广泛应用。
尽管传统 MVS 重建方法在理想环境下表现出色,但在面对非朗伯表面、光度变化和弱纹理等情况时,往往效果不佳。随着卷积神经网络(CNNs)在目标检测、语义分割、立体匹配等领域取得显著成果,学者们开始将其引入 MVS 重建。
其中,Yao 等人提出的 MVSNet 方法堪称经典,它把重建问题转化为深度估计问题,实现深度图的端到端输出,进而生成 3D 点云。基于 MVSNet 及其后续改进方法,大多通过构建 3D 成本体,再利用 3D CNN 对深度值进行正则化和回归。然而,3D CNN 存在内存和时间消耗大的问题,为此一些学者在特征提取时对输入进行下采样,虽能计算低分辨率的 3D 成本体和深度图,但会降低精度。在资源有限的移动设备上部署时,减少内存使用和计算时间至关重要。
R-MVSNet 采用递归的成本空间正则化替代传统 3D 成本体构建,让模型在减少内存使用的同时更准确,不过运行时间变长。CVP-MVSNet 将单个 3D 成本体转化为多层金字塔结构,实现更精确的多尺度特征融合和上下文信息传播,提升了模型性能,却也增加了运行时间。PatchMatchNet 借助可学习的自适应模块改进 PatchMatch 网络的传播和成本评估方法,降低计算时间和内存消耗,但其重建的准确性仍有待提高。当前方法在高分辨率重建问题上还有很大提升空间,需要在重建效果和计算资源消耗之间找到平衡。
AC-MVSnet
AC-MVSNet 网络架构主要由三部分构成:多尺度特征提取器 CADS-Msfe、可学习的 PatchMatch 模块以及具有边界增强效果的深度图优化网络 E-Refinement。
CADS-Msfe 多尺度特征提取模块结合了坐标注意力(CA attention)和动态上采样模块 Dysample。坐标注意力机制能够增强网络捕捉深度关键信息的能力,而动态上采样模块 Dysample 则进一步提升模型生成特征图的丰富度和准确性,以此提高网络的特征提取能力。
实验设置
实验采用 DTU 和 Tanks and Temples 数据集。DTU 数据集由丹麦技术大学提供,是 3D 重建和点云处理领域的开放数据集,包含大量室内外高质量图像,因其场景真实、纹理细节丰富,成为相关研究的重要资源,该数据集涵盖 128 个不同场景。
结论
本文提出的 AC-MVSNet 方法,致力于实现低 GPU 内存消耗、高运算速度以及高质量的高分辨率图像重建。在多尺度特征提取阶段引入坐标注意力和 Dysample,增强了模型的特征提取能力,提高了准确性和完整性。深度图优化网络中引入边界增强模块 ESAB,进一步优化深度图边界,显著提升了网络的重建性能。