用于无监督多模态图像配准的协作学习:整合自监督与MIM引导的基于扩散的图像转换方法

《Information Fusion》:Collaborative Learning for Unsupervised Multimodal Image Registration: Integrating Self-Supervision and MIM-Guided Diffusion-Based Image Translation

【字体: 时间:2025年10月11日 来源:Information Fusion 15.5

编辑推荐:

  多模态图像配准中,传统无监督方法难以有效捕捉几何差异。本文提出CoLReg协作学习框架,包含跨模态图像翻译网络MIMGCD(基于最大索引映射引导的条件扩散模型)、自监督中间注册网络和蒸馏后的跨模态注册网络,通过交替优化实现相互增强。MIMGCD利用可学习模态不变几何特征指导扩散过程,有效保留结构信息。实验表明,CoLReg在GoogleEarth等数据集上显著优于Alto、SCPNet、SSHNet等基线方法,部分结果超越监督学习模型。

  在当今的多模态图像处理领域,图像配准是一项至关重要的任务。图像配准指的是将来自不同传感器或成像方式的图像进行几何对齐,以实现特征的有效匹配与融合。无论是在变化检测、多模态图像融合、目标检测还是视觉地理定位等应用场景中,配准的准确性都会直接影响最终结果的质量,因此它是多模态图像处理的基础组成部分之一。

然而,多模态图像在光度、纹理、结构以及几何特征方面存在显著差异,这些差异给图像配准带来了巨大挑战。传统的方法通常依赖于人工标注的大量数据集,这些数据集在实际应用中往往难以获取,因为需要手动标注大量的控制点,从而导致数据准备过程既耗时又费力。此外,传统方法基于手工设计的特征,往往难以应对复杂的几何变换和模态差异。

近年来,深度学习方法在处理多模态图像配准方面表现出色,相较于传统方法,它们在应对大尺度几何差异和模态差距方面具有更强的适应能力。然而,监督学习方法通常需要精确的几何对应关系作为训练数据,这在实际应用中并不总是可行,因此限制了它们的广泛应用。为了克服监督学习方法的局限性,研究者们提出了多种无监督方法,其中一些方法通过图像到图像的转换网络来减少模态差异,另一些方法则通过构建模态不变的特征空间来对齐不同模态的图像。这些方法通常设计了一个度量模块,用于计算图像配准后的强度和高层特征差异,作为损失函数来间接监督配准网络的训练。例如,MURF和MUNet通过将多模态图像映射到一个共同空间,然后计算模态鲁棒表示之间的归一化互相关(NCC)来实现图像对齐;RFNet则计算转换后的源图像与目标图像之间的NCC。这些方法依赖于相似性度量,而不是明确的几何监督,因此在处理模态差异较大的情况下,它们的配准效果可能受限。

为了解决上述问题,SSHNet提出了一种直接学习的方法,将多模态图像配准分解为两个任务:一个单模态图像配准网络和一个图像转换网络,通过分割优化进行训练。单模态网络使用合成变形图像对和几何变形损失进行监督,而图像转换网络则负责将一种模态转换为另一种模态。然而,这种方法存在一定的局限性,例如,单模态网络对模态差异较为敏感,而图像转换网络无法完全解决这种问题,特别是在模态差异较大的情况下;此外,图像转换过程可能会丢失关键的几何特征,导致配准效果下降。最后,结合这两个网络会增加计算成本。SSHNet-D进一步引入了蒸馏策略,使用SSHNet生成的伪标签进行训练。然而,当伪标签质量较低时,优化过程会变得困难,而且蒸馏过程无法为SSHNet的训练提供有效的反馈,限制了网络之间的互动。

为了应对这些挑战,我们提出了一种无监督的直接多模态图像配准学习框架,即CoLReg。该框架通过构建一个协作学习的模式,将多模态图像配准任务重新定义为一个包含三个关键组件的协作训练过程。这三项组件分别是:一个跨模态图像转换网络MIMGCD,一个自监督的中间跨模态配准网络,以及一个蒸馏的跨模态配准网络。我们采用一种交替训练策略,使得这三项组件能够相互促进,从而逐步减少模态差异,提高伪标签的质量,并最终提升配准的准确性。

MIMGCD是一个基于最大索引图(MIM)引导的条件扩散模型,用于生成跨模态图像对。通过学习模态不变的几何特征,该模型能够引导反向扩散过程,保留更多结构和几何细节,这些细节对于实现准确的配准至关重要。相比之下,传统的“图像转换→单模态配准”框架在处理模态差异较大的情况下,可能会导致几何特征的丢失,从而影响配准效果。因此,我们提出的CoLReg框架通过生成高质量的跨模态自监督数据,直接解决多模态图像配准问题,从而避免因图像转换网络导致的几何特征丢失,并适应不同的模态差异。

此外,我们设计了一种交替优化策略,以实现稳定和有效的训练。中间配准网络首先在合成跨模态图像对上进行训练,使用模拟的几何变换;随后,跨模态配准网络利用中间网络生成的伪标签进行训练;最后,图像转换网络进一步利用跨模态图像对和变换进行优化。这种交替优化策略使得三个网络能够相互促进,从而形成一个协同工作的机制,最终实现更强大的跨模态配准网络。

在实验方面,我们选择了五个公开的多模态图像数据集进行测试,其中包括GoogleEarth、CrossModal、Potsdam、Vaihingen和BingMaps。这些数据集涵盖了不同模态之间的图像配准任务,如卫星图像与航拍图像、红外图像与可见光图像等。我们通过比较Alto、SCPNet、SSHNet、SSHNet-D以及CoLReg在这些数据集上的表现,验证了CoLReg的有效性。实验结果表明,CoLReg在多个数据集上都取得了与现有无监督方法相当或更优的性能,并且在某些情况下甚至超过了监督学习的基线方法,如DHN、MHN和ReDFeat。

我们的方法在多个方面进行了创新。首先,我们提出了一个协作学习的框架,将多模态图像配准任务重新定义为一个包含三个关键组件的协作训练过程。这三项组件分别是图像转换网络、中间自监督配准网络和蒸馏配准网络。通过交替训练策略,这三项组件能够相互促进,从而逐步减少模态差异,提高伪标签的质量,并最终提升配准的准确性。其次,我们引入了一种基于MIM引导的条件扩散模型,用于生成结构保持的跨模态图像对。这种模型通过学习模态不变的几何特征,引导反向扩散过程,保留更多结构和几何细节,从而提高配准的准确性。最后,我们设计了一种交替优化策略,使得三个网络能够相互促进,从而形成一个协同工作的机制,最终实现更强大的跨模态配准网络。

综上所述,我们提出的CoLReg框架在无监督多模态图像配准领域具有显著的优势。通过构建一个协作学习的模式,我们不仅解决了传统方法在处理模态差异和几何变换方面的局限性,还提升了配准的准确性和效率。此外,我们的方法在多个数据集上均表现出色,证明了其在实际应用中的可行性。未来,我们将进一步优化该框架,以适应更多的应用场景,并提高其在不同模态差异下的鲁棒性。我们相信,CoLReg框架的提出将为多模态图像配准领域带来新的思路和方法,推动相关技术的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号