在信息较少的情况下,利用结构增强和属性感知图对比学习方法
《The Knee》:Structure-augmentation and Attribute-aware Graph Contrastive Learning with Weak Information
【字体:
大
中
小
】
时间:2025年07月17日
来源:The Knee 1.6
编辑推荐:
本文提出GIP-Stereo框架,通过多尺度特征聚合、几何信息增强的关联体和交互式细化网络,有效传播几何信息,提升难处理区域的立体匹配精度与鲁棒性,在多个基准测试中达到最优性能。
立体匹配是计算机视觉中的一个关键任务,广泛应用于自动驾驶、三维重建和增强现实等领域。该任务的核心目标是通过一对立体图像估计出每个像素的视差图,从而推断出场景的深度信息。尽管过去十年中立体匹配领域取得了显著进展,但现有的方法在处理视差图生成过程中的几何信息时,往往未能充分挖掘和利用,导致在某些难以处理的区域(如遮挡、重复结构、无纹理或透明物体)中表现不佳。为了应对这一问题,我们提出了一种新的框架——GIP-Stereo,旨在在整个立体匹配流程中建立结构化的几何信息流,从而提升在复杂区域的鲁棒性和精度。
当前的立体匹配方法主要分为传统方法和基于学习的方法。传统方法通常依赖于手工设计的特征匹配策略,例如基于区域的匹配、基于边缘的匹配等。这些方法虽然在某些简单场景中表现尚可,但在处理复杂场景时,尤其是在存在遮挡和重复结构的情况下,往往难以获得准确的视差估计。近年来,随着深度学习的发展,基于学习的方法逐渐成为主流,这些方法通过端到端的训练机制,能够更有效地学习和提取特征,并在视差估计中实现更高的精度。然而,尽管这些方法在某些方面取得了突破,但在处理几何信息的传播和整合方面仍然存在不足,特别是在难以处理的区域中,缺乏有效的几何信息引导会导致匹配结果的不确定性。
GIP-Stereo的核心创新在于其对几何信息的全面利用。该框架包括三个主要模块:多尺度特征聚合(Multi-Scale Feature Aggregation, MSFA)、传播增强的关联体积(Propagation-Enhanced Correlation Volume, PECV)以及几何感知交互细化网络(Geometric-Aware Interaction Refinement Network, GIRN)。这些模块共同构建了一个从特征提取到视差生成的完整流程,确保在每个阶段都能充分利用几何信息,从而提高匹配精度和鲁棒性。
首先,MSFA模块在特征提取阶段被引入,用于建立一个稳健的几何感知基础。该模块通过多尺度特征的提取和融合,捕捉不同尺度下的几何信息,从而增强特征的表达能力。在多尺度特征聚合的过程中,网络能够提取不同层次的特征,并通过适当的融合策略,将这些特征组合成一个更全面的表示。这种方法不仅能够提高特征的鲁棒性,还能为后续的几何信息传播提供更丰富的基础。
其次,PECV模块被设计用于增强几何信息的传播。该模块引入了潜变量几何传播(Latent Geometric Propagation, LGP)机制,通过在关联体积中传播几何信息,提高在复杂区域的匹配精度。LGP模块能够将学习到的边缘特征与全局结构信息进行交互,从而在关联体积的构建过程中有效传递几何信息。通过计算自适应的注意力权重,LGP能够针对性地传播关键的结构信息,提高网络在处理复杂区域时的性能。与传统的基于学习的方法相比,GIP-Stereo通过在整个流程中建立结构化的几何信息传播机制,确保了几何感知信息的连续传递和优化。
最后,为了应对在迭代处理过程中可能丢失的几何信息,我们引入了GIRN模块。该模块能够将之前传播的几何感知信息与补充信息进行交互融合,从而提升视差估计的准确性。GIRN通过自适应地整合这些信息,使得网络能够在不同阶段动态调整匹配策略,提高在复杂区域的预测能力。这种方法不仅能够保留几何信息,还能通过交互融合进一步优化视差估计结果。
为了验证GIP-Stereo的性能,我们在多个权威数据集上进行了实验测试。实验结果表明,GIP-Stereo在处理难以匹配的区域方面表现出色。在提交时,该方法在ETH3D基准测试中排名第一,其1像素的异常点率(Bad 1.0)仅为0.70%。此外,在KITTI-2012 Reflective基准测试中,GIP-Stereo在非遮挡区域的3像素异常点率(3-noc)为2.99%,在KITTI-2015数据集上,其3像素异常点率(D1-all)为1.51%,在所有区域中均优于其他先进方法。在Middlebury数据集上,GIP-Stereo的2像素异常点率(Bad 2.0)为7.35%,表现出良好的性能。
在实验过程中,我们发现,传统方法在处理遮挡和重复结构时往往依赖于局部特征的匹配,而忽视了全局几何信息的利用。这种局限性导致在复杂区域的匹配结果不够准确,甚至出现对象缺失或细节不足的问题。相比之下,GIP-Stereo通过在整个流程中建立结构化的几何信息传播机制,有效解决了这些问题。特别是在处理反射表面和纹理缺失区域时,GIP-Stereo能够通过多尺度特征聚合和传播增强的关联体积,提供更准确的视差估计。
此外,GIP-Stereo还具有更高的灵活性和可扩展性。在实验中,我们发现,一些基于学习的方法虽然在某些数据集上表现优异,但在处理不同的应用场景时,往往需要调整网络结构或训练参数。相比之下,GIP-Stereo通过模块化的设计,使得每个部分都可以独立优化,从而提高了整体框架的适应能力。这种方法不仅能够提高匹配精度,还能在不同的应用场景中保持良好的性能。
在实际应用中,GIP-Stereo的性能表现得到了广泛认可。特别是在自动驾驶和三维重建领域,准确的视差估计对于环境感知和导航至关重要。通过GIP-Stereo,可以更有效地获取场景的深度信息,从而提高自动驾驶系统的安全性。此外,在增强现实领域,准确的视差估计能够提升虚拟与现实的融合效果,为用户带来更好的沉浸体验。
总的来说,GIP-Stereo通过引入多尺度特征聚合、传播增强的关联体积和几何感知交互细化网络,构建了一个完整的几何信息传播框架。这种方法不仅能够提高在复杂区域的匹配精度,还能有效解决遮挡和重复结构等问题。实验结果表明,GIP-Stereo在多个权威数据集上均表现出色,其性能指标优于其他先进方法。未来,我们计划进一步优化该框架,以适应更广泛的应用场景,并探索其在其他计算机视觉任务中的潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号