HDM-Stereo:基于分层动态匹配的立体匹配即插即用框架——提升跨数据集泛化能力与大视差处理新突破

《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:HDM-Stereo: A Plug-and-Play Framework for Stereo Matching via Hierarchical Dynamic Matching

【字体: 时间:2025年12月22日 来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4

编辑推荐:

  本文针对立体匹配网络因预定义视差范围限制而导致的跨数据集泛化能力不足和大视差处理困难等核心问题,提出了一种即插即用的分层动态匹配框架HDM-Stereo。该研究通过金字塔分层匹配架构动态调整各层匹配区域,结合成本体积剪枝算法降低计算复杂度,并采用随机裁剪和平移的数据增强策略提升模型泛化能力。实验表明,该框架与五种代表性网络集成后,在WHU-Stereo和WHU-MVS数据集上分别实现EPE(End-Point Error)平均降低0.77像素(24%)和1.16像素(47%),显著提升了立体匹配模型在真实场景中的适用性。

  
在遥感测绘和计算机视觉领域,从卫星立体影像中精确估计视差是一项基础而关键的任务。然而,现有的立体匹配网络通常需要在预定义的视差范围内构建成本体积,这种设计就像给模型戴上了"眼罩",使其难以适应不同数据集间视差分布的显著差异。
如图所示,US3D、WHU-Stereo和WHU-MVS数据集的视差分布存在明显不平衡,这种分布差异严重制约了模型在不同数据集间的泛化能力。
更令人头疼的是,现实应用中广泛基线相机系统采集的高分辨率图像往往会产生大视差,而传统网络对此束手无策。
实验数据显示,当真实视差dgt≥ 80像素时,所有网络都无法实现准确匹配,这表明传统方法在大视差场景下几乎失效。
面对这些挑战,武汉大学的研究团队在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上发表了创新性研究成果HDM-Stereo。这项研究摒弃了传统的固定视差范围思路,转而采用一种分层动态匹配的新范式,为立体匹配领域带来了突破性进展。
技术方法上,研究人员主要采用了三大创新策略:首先构建金字塔分层匹配框架,通过多尺度立体匹配动态调整各层匹配区域;其次开发成本体积剪枝算法,利用前一层匹配结果动态调整当前层视差搜索范围;同时设计随机裁剪和平移的数据增强策略,通过生成多样视差分布样本提升模型泛化能力。实验使用US3D、WHU-Stereo和WHU-MVS三个遥感数据集进行验证,采用端點误差(EPE)和错误像素比例(D1)作为评估指标。
整体框架设计
HDM-Stereo采用金字塔结构,包含N个层级(通常N=3)。每个层级都包含特征提取模块和动态匹配模块。该框架的核心创新在于:通过逐层细化策略,根据前一层的匹配结果动态调整当前层的视差搜索范围,从而有效解决大视差和跨数据集泛化问题。
分层动态匹配机制
研究团队深入分析了平移和降采样对视差值的影响。
如图4所示,将右图像向右平移N个像素会使所有视差值减少N。
而降采样(图5)会将视差缩放至原始大小的1/N。基于这些洞察,团队针对不同尺度的图像设计了相应的视差调整策略。
针对大尺度卫星图像,采用分块处理方式,基于前一层的视差分布对右图像块位置进行水平调整。
这种方法通过对右图像块的精确调整,有效扩展了视差搜索范围。而对于小尺度数据集图像,由于缺乏上下文信息,采用零填充代替直接平移。
金字塔层数自适应选择
研究团队发现,在包含高层建筑的场景中,视差分布往往呈现双峰或长尾特征。为此,他们设计了双匹配融合模块(DMFM)作为标准动态匹配模块的增强替代。
该模块能够并行处理背景区域和高层建筑区域,通过生成的掩码融合两个视差图,显著提升了对复杂场景的适应能力。
成本体积剪枝优化
为了降低计算开销,团队提出了成本体积剪枝算法。
该算法利用前一层的匹配结果动态排除不太可能出现的视差候选,将原始视差搜索范围[Dmin, Dmax]替换为剪枝后的范围[Dmini-1-offseti-1, Dmaxi-1-offseti-1],显著降低了计算复杂度。
跨数据集泛化性能验证
实验结果表明,HDM-Stereo框架显著提升了现有立体匹配网络的跨数据集泛化能力。在WHU-Stereo数据集上,与未使用数据增强的基线相比,平均EPE降低0.77像素(24% reduction);在WHU-MVS数据集上,与使用数据增强的基线相比,实现1.16像素降低(47% reduction)。最先进的方法(SOTA)与HDM-Stereo集成后,在WHU-MVS数据集上的EPE从2.39降至1.33。
定性比较结果进一步验证了该结论。对于视差范围在[30,60]的前两个案例,基线网络在小区差区域仍存在预测误差,而应用数据增强和HDM-Stereo后性能显著提升。在最后两个高层建筑案例中(视差大于150),基线网络在地面和建筑区域都完全失效,数据增强改善了地面区域精度,HDM-Stereo进一步提升了建筑区域精度。
大视差区域性能验证
为了验证该方法在真实场景中的大视差处理能力,研究团队还采集了北京三号卫星的 panchromatic 图像进行测试。
定量结果表明,HDM-Stereo在北京三号数据集的所有三幅测试图像上均显著优于其他配置,证明了其在具有未知视差分布的真实场景中的优越性。
HDM-Stereo研究的成功,标志着立体匹配领域朝着更实用、更智能的方向迈出了重要一步。这项研究不仅解决了长期困扰该领域的跨数据集泛化和大视差处理难题,更重要的是提供了一种即插即用的解决方案,无需重新训练或修改现有网络架构即可显著提升性能。随着遥感技术的快速发展和应用场景的不断扩展,这种灵活高效的框架将为城市规划、三维重建、场景理解等众多领域带来新的技术突破,为构建更加智能的地理信息处理系统奠定坚实基础。未来,研究人员计划开发具有内在自适应视差搜索能力的成本体积架构,进一步优化计算效率,推动立体匹配技术向更广泛的应用场景迈进。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号