MHFu-former:基于Swin Transformer的多光谱与高光谱图像融合新方法及其在遥感中的应用

【字体: 时间:2025年09月17日 来源:International Journal of Applied Earth Observation and Geoinformation 8.6

编辑推荐:

  针对多光谱与高光谱图像融合(MHIF)中空间细节增强不足、光谱信息保持困难及空间尺度依赖等问题,研究人员提出了一种新型融合Transformer模型(MHFu-former)。该模型通过双分支混合架构和空间-光谱融合注意力机制,显著提升了融合性能,在Cave和ZY1-02D卫星数据集上验证了其优越性,为遥感图像处理提供了新解决方案。

  

在遥感技术飞速发展的今天,多光谱图像(MSI)和高光谱图像(HSI)各自扮演着不可或缺的角色。多光谱图像能够提供较高的空间分辨率,精准定位地物位置;而高光谱图像则能捕获详细的光谱特征,实现精准的目标识别。然而,由于传感器物理限制,现有技术难以同时获得高空间分辨率和高光谱分辨率的图像,这成为遥感领域长期存在的技术瓶颈。

传统的多光谱与高光谱图像融合(MHIF)方法主要分为基于传统优化算法和基于深度学习的两大类。传统方法如耦合非负矩阵分解(CNMF)虽然计算负担较小,但在空间分辨率差异较大时会产生显著的光谱失真。而基于深度学习的方法虽然在学习空间-光谱特征方面具有优势,但仍然面临空间细节增强能力有限、光谱信息保持不足以及对小规模数据集的过度依赖等问题。特别是在复杂的遥感场景中,现有方法的性能往往不尽如人意。

更令人困扰的是,当前基于Transformer的架构虽然在高光谱和多光谱图像融合中表现出色,但其全局自注意力机制带来了惊人的计算负担,输入图像大小的二次复杂度限制了其在实际大规模遥感场景中的部署应用。同时,标准Transformer缺乏对局部空间细节的强大归纳偏置,难以捕获高保真融合所需的细粒度纹理。

为了解决这些问题,华东师范大学的研究团队在《International Journal of Applied Earth Observation and Geoinformation》上发表了一项创新性研究,提出了一种名为MHFu-former的多光谱和高光谱图像融合Transformer模型。这项研究不仅解决了现有方法的局限性,还为遥感图像处理领域带来了新的技术突破。

研究人员采用了几项关键技术方法:首先构建了双分支混合架构,整合Swin Transformer和深度可分离卷积,并行提取全局光谱关联和细粒度空间特征;其次设计了动态空间-光谱融合注意力机制,通过全局-局部依赖建模自适应优先处理关键光谱波段并分层融合多级空间特征;此外还建立了端到端级联优化框架,通过可解释的空间-光谱解耦实现高分辨率HSI重建。实验数据来源于室内Cave数据集和ZY1-02D卫星的上海、赣州数据集。

在特征提取与融合模块方面,研究显示该模块首先从高光谱和多光谱图像中提取深度多尺度特征并将其融合形成联合特征图,然后通过由Swin Transformer模块和卷积模块组成的双分支结构进行处理,分别捕获全局上下文和细粒度空间特征。这一设计有效解决了传统方法中空间上下文细节不足和光谱特性一致性差的问题。

空间-光谱融合注意力机制的研究结果表明,该机制能够自适应地增强重要光谱信息并将其与空间细节信息融合,显著提高了模型对关键光谱特征的敏感性,同时保留了丰富的空间细节。通过全局-局部依赖建模,该机制最小化了光谱失真并确保了光谱轮廓的连续性。

Swin Transformer主干网络的分析表明,与原始视觉Transformer相比,Swin Transformer中的自注意力机制采用移位窗口分区进行计算,构建了与图像大小呈线性关系的分层特征映射,显著降低了计算成本。窗口多头自注意力(W-MSA)机制和移位窗口多头自注意力(SW-MSA)机制是多头自注意力机制的变体,能够有效捕获长距离依赖关系同时保持精确的局部特征。

在模拟分辨率实验中的性能评估显示,在Cave数据集上,MHFu-former获得了最低的光谱角映射器(SAM)值5.1269,最高的峰值信噪比(PSNR)34.7669和最低的相对全局维度合成误差(ERGAS)2.8664,表明其在保持光谱一致性和最小化光谱失真方面具有卓越能力。在ZY1-02D数据集的两个场景中,该方法同样表现出色,在复杂场景中尤其突出,证明了其强大的光谱保真度和空间细节保持能力。

真实分辨率实验结果表明,MHFu-former在最小化空间失真方面表现最佳,其融合图像在空间特征分布方面实现了最高的一致性。通过典型地物类型的光谱曲线比较分析,该方法在所有土地覆盖类别中都展示了优异的光谱检索性能,特别是在建筑物和水体等复杂土地覆盖类型以及短波红外(SWIR)区域表现出强大的鲁棒性。

消融实验和超参数研究进一步证实了空间-光谱注意力模块的有效性,显示了自适应空间-光谱注意力在减轻融合引起的伪影方面的关键作用。窗口大小和切片大小的优化实验强调了场景特定自适应对于优化全局上下文建模和局部细节保持之间平衡的重要性。

该研究的结论部分强调,MHFu-former成功解决了MHIF中的光谱失真、空间细节增强和光谱完整性保持等关键问题。模型通过整合Swin Transformer和卷积模块到双分支架构中,有效处理了光谱差异,同时捕获了全局上下文关联和细粒度空间细节。空间-光谱融合注意力机制动态优先处理关键光谱波段,通过全局-局部依赖建模整合多级空间信息,最小化了光谱失真并保持了光谱轮廓的连续性。

研究的讨论部分指出,尽管性能强劲,MHFu-former仍存在一些局限性。模型采用固定窗口和切片大小,可能无法在不同场景类型或传感器特性中普遍适用。静态配置在高度异构环境中可能限制泛化性能。未来的工作可以探索自适应或动态窗口策略,根据局部图像复杂性进行调整,从而增强鲁棒性。此外,当前流程依赖于光谱对齐和插值等预处理步骤,这些步骤虽然标准,但可能引入细微伪影,并且通常需要传感器规格的先验知识。关键的未来方向是开发端到端融合机制,能够直接学习对齐和整合数据,从而提高自主性和泛化能力。

这项研究的重要意义在于为多光谱和高光谱图像融合提供了新的技术思路和解决方案,不仅显著提升了融合性能,还为后续研究指明了方向。通过创新性地结合Swin Transformer和注意力机制,MHFu-former为遥感图像处理领域树立了新的技术标杆,在实际应用中具有广泛的推广价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号