MC-MVSNet：当多视图立体视觉与单目线索相结合时

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：MC-MVSNet: When Multi-View Stereo meets Monocular Cues

【字体：大中小】 时间：2026年01月29日 来源：Pattern Recognition 7.6

编辑推荐：

　　多视图立体视觉框架MC-MVSNet融合单目视觉基础模型（VFMs）的全局几何特征与CNN的局部细节特征，提出CHFA模块实现混合特征适配，CVFM模块通过单目深度预测过滤冗余深度假设，CPCA模块利用表面法线构建几何对齐的弯曲补丁成本聚合策略，显著提升遮挡、无纹理等复杂场景的深度估计精度，在DTU、Tanks and Temples、ETH3D数据集上达到最优性能。

Xincheng Tang|Mengqi Rong|Bin Fan|Hongmin Liu|Shuhan Shen

北京科技大学智能科学与技术学院，中国

摘要

基于学习的多视图立体视觉（MVS）已成为从多张校准图像重建密集3D点云的关键技术。然而，现实世界中的挑战，如遮挡和无纹理区域，常常会阻碍深度估计的准确性。最近在单目视觉基础模型（VFMs）方面的进展展示了其在场景理解方面的强大泛化能力，为提高MVS的鲁棒性提供了新的机会。在本文中，我们提出了MC-MVSNet，这是一个新颖的MVS框架，它整合了多种单目线索以在具有挑战性的条件下改善深度估计。在特征提取过程中，我们通过一个混合特征融合模块将传统的CNN特征与VFM衍生的表示相结合，有效地结合了局部细节和全局上下文，以实现更具区分性的特征匹配。我们还提出了一个成本体积过滤模块，该模块强制单目深度预测具有跨视图几何一致性，修剪冗余的深度假设以减少深度搜索空间并减轻匹配歧义。此外，我们利用单目表面法线来构建一个曲线补丁成本聚合模块，该模块在几何对齐的曲线补丁上聚合成本，从而提高了曲线和无纹理区域的深度估计准确性。在DTU、Tanks and Temples和ETH3D基准测试上的广泛实验表明，MC-MVSNet取得了最先进的性能，并展示了强大的泛化能力，验证了所提出方法的有效性和鲁棒性。

引言

多视图立体视觉（MVS）旨在使用多张校准的2D图像恢复目标对象或场景的密集3D结构。它在自动驾驶、机器人导航和增强现实等应用中受到了广泛关注。最近基于学习的MVS方法[1]、[2]通过利用卷积神经网络（CNNs）的强大特征表示能力，已经超越了传统的基于几何的方法[3]、[4]。通常，这些方法采用平面扫描策略将图像特征在各个视图之间进行变形，以构建一个3D成本体积，然后通过软最大值操作将其规范化为深度图。尽管取得了成功，但这些方法在非朗伯表面、无纹理区域和遮挡等具有挑战性的场景中仍然存在困难，其中准确的深度估计仍然很困难。

最近，单目视觉基础模型（VFMs）[5]、[6]、[7]在广泛的视觉任务中展示了显著的泛化能力，例如视觉推理[8]和几何恢复[5]、[6]。得益于在大型和多样化数据集上的预训练，VFMs可以从单张图像中提取语义和几何感知的特征，捕捉底层场景的丰富结构线索[5]、[6]。尽管有这些优势，但它们在几何视觉任务（如MVS[9]和立体匹配[10]）中的使用仍然具有挑战性，因为全局特征表示通常不足以实现精确的像素级对应关系，而单目几何预测缺乏密集多视图匹配所需的精度。为了解决这些限制，我们提出了MC-MVSNet，这是一个新颖的MVS框架，它适应了MVS的细粒度需求，从而提高了重建精度。

图像特征表示对于MVS中的密集匹配至关重要，其中每个参考像素必须与其在源视图中的正确对应点沿极线匹配。大多数现有方法采用特征金字塔网络（FPNs）来提取多尺度图像特征，而这些局部细粒度的特征通常会导致在非朗伯或无纹理表面上的匹配歧义。相比之下，VFM特征本质上捕获了全局几何和语义上下文，使它们成为局部FPN特征的补充。基于这一观察，我们在MC-MVSNet中提出了一个新颖的上下文混合特征适应（CHFA）模块，该模块在统一框架内融合了局部详细的FPN特征和几何感知的VFM特征。在我们的粗到细的MVS架构中，我们首先在最粗的阶段将低分辨率FPN特征与VFM特征[5]连接起来，然后通过浅层卷积层促进混合特征的交互和融合。由此产生的上下文特征结合了局部细节和全局上下文，从而提高了在广泛深度范围内的特征区分性。在更细的阶段，通过集成更多高分辨率的FPN特征来逐步细化上下文特征，为精确的深度细化提供更丰富的局部细节。这种融合策略通过全局上下文意识在早期阶段增强了特征区分性，并通过结合更多细粒度的局部细节在后期阶段提高了深度细化精度。

典型的MVS网络通过平面扫描算法构建成本体积，该算法在离散的前后平行平面上评估多个候选深度假设。然而，许多这些假设是冗余的，因为只有接近真实表面的假设才能对最终深度估计有实质性贡献。在没有先验几何信息的情况下识别这些相关假设仍然是一个基本挑战，这导致了经典的先有鸡还是先有蛋的问题。为了解决这个问题，我们利用强大的泛化能力VFM[5]来获得单目深度预测，这些预测作为场景几何的粗略但全局的预览。尽管这些单目深度图可能缺乏像素级的准确性，但它们通常保留了足够的可靠相对场景几何信息，足以区分这些冗余的深度假设。基于这一见解，所提出的MC-MVSNet结合了一个成本体积过滤模块（CVFM），在单目深度的指导下修剪冗余的深度假设，从而减少了深度搜索空间并提高了估计精度。具体来说，我们首先使用预训练的VFM[5]为参考视图和源视图获得单目深度图。对于源视图的每个单目深度，我们将其变形到参考视图并计算与单目预测的绝对深度差异。差异较大的假设被认为是几何上不一致的，并从成本体积中排除。此外，采用基于排名的过滤策略来保留具有最高几何一致性的前k个深度假设，进一步消除了极线完全位于前景或背景中的冗余深度假设。成本体积过滤模块大大缩小了潜在的匹配空间，使网络能够专注于几何上合理的深度候选者，从而减少了匹配歧义并提高了最终深度估计的精度。

基于学习的MVS通过比较沿极线的特征相似性来匹配像素。虽然在纹理丰富的区域中有效，但由于忽略了局部场景几何，这种像素到像素的匹配在边界或纹理稀疏的表面上常常失败。传统的基于PatchMatch的MVS方法通过在倾斜的补丁上聚合成本而不是逐像素相似性来缓解这一问题。基于这个想法，我们在MC-MVSNet中设计了一个曲线补丁成本聚合（CPCA）模块，该模块利用VFM[5]中的单目表面法线作为局部几何先验来进行高效的成本聚合。具体来说，给定一个单目法线图，我们通过插值它们的法线来近似参考像素与其每个相邻像素之间的局部几何，然后使用参考视图的深度假设构建一个局部3D平面。这个平面作为底层场景表面的一阶近似。然后我们通过将相邻像素的视射线与这些3D平面相交来确定采样区域，并将相应的成本聚合回参考像素。通过将几何先验直接嵌入成本体积，CPCA提高了在曲线表面和纹理稀疏区域上的鲁棒性，优于传统的3D成本聚合策略。

所提出的MC-MVSNet的主要贡献总结如下：

1.
我们提出了一个上下文混合特征适应（CHFA）模块，该模块将几何感知的全局VFM特征与局部图像特征融合在一起，从而产生了更具区分性的特征表示，显著提高了多视图匹配性能。
2.
我们引入了一个成本体积过滤模块（CVFM），该模块利用单目深度的跨视图几何一致性来修剪冗余的深度假设，有效减少了深度搜索空间并提高了估计精度。
3.
我们提出了一个曲线补丁成本聚合（CPCA）模块，该模块利用单目表面法线来指导沿几何感知的曲线补丁的成本聚合，从而在曲线表面和无纹理区域实现了更可靠的深度估计。
4.
在DTU、Tanks and Temples和ETH3D基准测试上的广泛实验表明，MC-MVSNet取得了最先进的性能，验证了其有效性和泛化能力。

部分片段

基于学习的MVS方法

随着深度神经网络的最新进展，基于学习的MVS方法已经出现，并在性能上超越了传统的基于几何的方法[3]、[4]。大多数基于学习的MVS框架遵循平面扫描算法，其中深度图像特征在多个视图之间进行变形以构建成本体积，然后通过3DCNNs对其进行规范化以预测密集的深度图。MVSNet [11]引入了可微分的仿射变换，实现了端到端的训练

网络架构

所提出的MC-MVSNet采用了一个四阶段的粗到细的架构，逐步预测全分辨率深度图，如图1所示。给定一组校准的输入图像，我们使用特征金字塔网络（FPN）提取局部图像特征，并使用Metric3DV2的冻结VFM提取全局几何特征，然后通过所提出的CHFA模块将这些融合特征与D个逆深度假设一起用于构建成本体积

实验

在本节中，我们通过一系列实验对所提出的MC-MVSNet进行了全面评估。我们首先介绍了用于评估的数据集和我们的实现细节。然后，我们报告了在三个广泛使用的MVS数据集上的基准测试结果：DTU [29]、Tanks and Temples [30]和ETH3D [31]。最后，我们进行了消融研究以验证每个提出模块的有效性。

结论

在本文中，我们提出了MC-MVSNet，这是一个新颖的多视图立体视觉框架，它整合了来自视觉基础模型的丰富单目线索，从特征级别到几何级别，以提高准确的多视图3D重建。我们引入了一个上下文混合特征适应模块，该模块将全局几何感知的VFM特征与局部FPN特征相结合，从而增强了特征区分性并提高了匹配的鲁棒性。此外，我们提出了一个成本体积过滤模块

CRediT作者贡献声明

Xincheng Tang：撰写——原始草稿、可视化、验证、软件、方法论、概念化。Mengqi Rong：撰写——审阅与编辑、可视化、验证、调查。Bin Fan：撰写——审阅与编辑、资金获取。Hongmin Liu：撰写——审阅与编辑、监督、项目管理、资金获取、概念化。Shuhan Shen：撰写——审阅与编辑、方法论、调查、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（资助编号U22B2055、62273345和62222302）、北京自然科学基金（资助编号L223003）以及河南省重点研发项目（资助编号231111210300）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

部分片段

基于学习的MVS方法

网络架构

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行