轻量级内存驱动的自注意力机制在超光谱图像分类中的应用:结合CNN-Transformer和跨特征融合技术

《Neurocomputing》:Lightweight Memory-Driven Self-Attention for Hyperspectral Image Classification with CNN-Transformer Cross-Feature Fusion

【字体: 时间:2025年07月17日 来源:Neurocomputing 6.5

编辑推荐:

  HSI分类中,ConvMamba框架融合CNN和Mamba模型,通过Mamba-Conv结构建模长序列谱依赖,CNN提取局部空间特征,CenterFusion结构实现多尺度特征融合,显著降低计算成本(FLOPS减少60%),在Indian Pines、Pavia University等数据集上达到SOTA精度(>97.5%)。

  hyperspectral image (HSI) 分类在遥感领域中占据着至关重要的地位,广泛应用于环境监测、精准农业以及城市规划等多个实际场景。HSI 通过捕捉每个像素数百个连续的光谱波段,提供了丰富的光谱信息,使得材料识别的精度远高于传统的 RGB 或多光谱成像技术。然而,这种光谱信息的丰富性也带来了挑战,主要体现在数据的高维度以及如何有效地提取光谱与空间上下文信息。因此,如何在保持分类精度的同时,提高计算效率,成为当前研究的重点。

近年来,研究人员提出了多种机器学习和深度学习方法来应对这些挑战。传统机器学习模型,如支持向量机(SVM)和随机森林(RF),虽然在某些情况下表现良好,但它们在处理复杂的光谱-空间关系时存在明显局限。相比之下,卷积神经网络(CNN)因其在空间特征提取方面的优势,展现出了更大的潜力。CNN 通过分层卷积结构,能够有效捕捉局部空间特征,但其局部感受野的特性限制了其在长距离依赖建模方面的表现。尽管 3D CNN 在一定程度上解决了空间和光谱维度的建模问题,但在建模光谱关系方面仍然存在不足。

为了解决这些局限,基于 Transformer 的模型被引入,利用自注意力机制来捕捉长距离依赖关系。这些模型在其他领域如语言建模、音频处理和图像理解中取得了显著成果,但在处理高维数据时,其自注意力机制的计算复杂度呈二次增长,导致计算成本过高,难以应用于大规模的 HSI 数据集。因此,寻找一种在保持长距离依赖建模能力的同时,又能有效降低计算成本的方法,成为当前研究的一个重要方向。

在这一背景下,State Space Models (SSMs) 被视为一种潜在的替代方案。SSMs 通常用于动态系统分析和时间序列建模,其优势在于能够高效地捕捉长期依赖关系。Mamba 架构作为 SSMs 的一种最新进展,引入了 Selective State Space Models,通过选择性地保留或丢弃信息,实现了更高效的长序列建模。Mamba 在语言建模、音频处理和图像理解等领域展现出了优异的性能,但在 HSI 分类中的应用仍处于探索阶段。

当前,基于 Mamba 架构的 HSI 分类方法通常模仿 Transformer 的方式,通过提取和整合光谱和空间维度的特征,或者采用多方向扫描来捕捉序列特征,利用 Mamba 的线性特性。然而,这些方法在一定程度上削弱了 Mamba 在计算效率方面的优势。相比之下,CNN 在计算效率方面具有天然的优势,并且在捕捉局部特征方面表现卓越。因此,将 Mamba 与 CNN 结合,既能够弥补 Mamba 在局部特征建模方面的不足,又能保持计算效率,避免引入额外的计算复杂度,成为一种自然的思路。

本文提出了一种新的框架,称为 ConvMamba,该框架通过在 Mamba 模块前后应用卷积操作,补充邻域信息。实验表明,即使在这一相对简单的设计下,ConvMamba 在 HSI 分类任务中也取得了具有竞争力的结果。ConvMamba 的框架如图 1 所示,其将 HSI 分割为多个小块,并对每个小块的中心像素进行分类。在该框架中,Mamba 对每个光谱通道应用独立的 SSM,确保中心像素的每个光谱通道都能从其他像素获取丰富的光谱信息,从而增强光谱特征的提取。CNN 则负责从中心像素及其周围邻域中提取空间上下文信息。这种混合方法使得 ConvMamba 能够保留 SSMs 模型的丰富光谱信息,同时融合 CNN 的空间特征,形成更全面和有效的特征表示。这种方法克服了传统 CNN 在局部感受野方面的局限,并为 HSI 分类提供了一种计算效率更高的替代方案。

此外,ConvMamba 还引入了一种新的光谱-空间特征融合策略,称为 CenterFusion。在基于小块的中心像素分类过程中,中心像素的光谱特性至关重要,尤其是在边界区域。ConvMamba 利用 1D 卷积提取小块级别的空间特征,这些特征随后与中心像素的光谱信息进行融合,充分整合局部和全局的光谱依赖关系。这种多尺度的融合方式不仅增强了所学光谱表示的可区分性,还保持了计算效率,进一步提升了分类性能。

本文的主要贡献可以总结如下:首先,我们提出了一种新的特征提取结构,称为 Mamba-Conv。该结构利用 Mamba 的线性序列模型,建立中心像素与周围广泛邻域像素之间的依赖关系,使得中心像素的光谱信息能够与周围像素的空间信息进行整合。同时,CNN 被用来弥补线性序列模型在建模局部空间不变性方面的不足。与传统的注意力模型如 Transformer 相比,Mamba-Conv 结构在计算效率方面有显著提升,减少了 FLOPS,从而提高了模型的运行速度。其次,为了进一步增强光谱-空间信息的融合,我们引入了一种新的融合结构,称为 CenterFusion。该结构将通过 1D 卷积获得的小块级别的光谱特征与 Mamba-Conv 提取的中心像素信息进行显式融合,充分利用中心像素的光谱信息和周围像素的空间信息,从而进一步提升分类性能。最后,通过将 Mamba-Conv 和 CenterFusion 结构相结合,我们提出了 ConvMamba 框架。在三个基准 HSI 数据集—Indian Pines、Pavia University 和 WHU-Hi-HongHu 上的大量实验表明,我们的算法在分类性能上具有明显优势。实验结果和消融研究验证了该框架的有效性,表明 ConvMamba 在保持高分类精度的同时,显著降低了计算成本。

本文的其余部分组织如下:第二部分回顾了 HSI 分类的相关工作。第三部分描述了方法论,包括 SSM 的介绍、架构概述、Mamba-Conv 模块和 CenterFusion 模块。第四部分介绍了实验部分,详细说明了实验设置、数据集、评估指标和结果,并进一步进行了参数分析和消融研究,以评估关键模型组件的贡献。第五部分讨论了方法的复杂性和效果,第六部分则总结了本文的结论,并提出了未来的研究方向。

在 HSI 分类任务中,数据的高维度和复杂的光谱-空间关系对模型的性能提出了严峻挑战。传统方法如 CNN 和 Transformer 在处理这些数据时各有优劣。CNN 虽然在空间特征提取方面表现出色,但由于其局部感受野的限制,难以捕捉长距离依赖关系。而 Transformer 虽然能够有效建模全局关系,但其计算复杂度较高,难以应用于大规模数据集。因此,如何在保持长距离依赖建模能力的同时,提高计算效率,成为当前研究的关键。

在这一背景下,SSMs 被认为是一种有潜力的替代方案。SSMs 能够通过映射序列数据到状态空间,高效地捕捉长期依赖关系。Mamba 架构作为 SSMs 的最新进展,引入了 Selective State Space Models,使得模型能够在不同数据背景下选择性地保留或丢弃信息,从而实现更高效的长序列建模。Mamba 在语言建模、音频处理和图像理解等领域展现出了优异的性能,但在 HSI 分类中的应用仍需进一步探索。

当前,基于 Mamba 架构的 HSI 分类方法通常通过模仿 Transformer 的方式,提取和整合光谱和空间维度的特征,或者通过多方向扫描捕捉序列特征,利用 Mamba 的线性特性。然而,这些方法在一定程度上削弱了 Mamba 在计算效率方面的优势。相比之下,CNN 在计算效率方面具有天然的优势,并且在捕捉局部特征方面表现卓越。因此,将 Mamba 与 CNN 结合,既能够弥补 Mamba 在局部特征建模方面的不足,又能保持计算效率,避免引入额外的计算复杂度,成为一种自然的思路。

本文提出的 ConvMamba 框架,通过在 Mamba 模块前后应用卷积操作,补充邻域信息。该框架如图 1 所示,将 HSI 分割为多个小块,并对每个小块的中心像素进行分类。Mamba 在每个光谱通道上应用独立的 SSM,确保中心像素的每个光谱通道都能从其他像素获取丰富的光谱信息,从而增强光谱特征的提取。CNN 则负责从中心像素及其周围邻域中提取空间上下文信息。这种混合方法使得 ConvMamba 能够保留 SSMs 模型的丰富光谱信息,同时融合 CNN 的空间特征,形成更全面和有效的特征表示。这种方法克服了传统 CNN 在局部感受野方面的局限,并为 HSI 分类提供了一种计算效率更高的替代方案。

此外,ConvMamba 还引入了一种新的光谱-空间特征融合策略,称为 CenterFusion。在基于小块的中心像素分类过程中,中心像素的光谱特性至关重要,尤其是在边界区域。ConvMamba 利用 1D 卷积提取小块级别的空间特征,这些特征随后与中心像素的光谱信息进行融合,充分整合局部和全局的光谱依赖关系。这种多尺度的融合方式不仅增强了所学光谱表示的可区分性,还保持了计算效率,进一步提升了分类性能。

为了验证 ConvMamba 的有效性,我们在三个基准 HSI 数据集—Indian Pines、Pavia University 和 WHU-Hi-HongHu 上进行了大量实验。这些数据集分别具有不同的光谱和空间特征,使得分类精度的评估更加全面。实验结果表明,ConvMamba 在分类性能上具有明显优势。同时,消融研究进一步验证了框架中关键组件的有效性,表明 ConvMamba 在保持高分类精度的同时,显著降低了计算成本。

本文的结构设计旨在平衡不同模型组件之间的优势。Mamba-Conv 结构通过结合 Mamba 的线性特性与 CNN 的局部空间特征提取能力,实现了对中心像素与周围邻域像素之间依赖关系的建模。这种结构不仅提高了模型的计算效率,还增强了光谱与空间信息的融合。CenterFusion 结构则进一步优化了这一融合过程,通过显式融合小块级别的空间特征与中心像素的光谱信息,使得模型能够更有效地捕捉局部和全局的光谱依赖关系。

在实际应用中,HSI 分类不仅需要高精度,还需要高效率。ConvMamba 框架通过减少计算复杂度,使得模型能够在资源有限的条件下实现高效运行。同时,其在多个数据集上的实验结果表明,该框架在分类性能上具有显著优势,能够有效应对 HSI 分类中的复杂挑战。此外,ConvMamba 的模块化设计也使得其具备良好的扩展性,可以适应不同规模和复杂度的 HSI 数据集。

本文的实验部分详细描述了 ConvMamba 在三个基准数据集上的表现。Indian Pines 数据集以其丰富的光谱信息和复杂的场景特征著称,Pavia University 数据集则以高分辨率和多样化的地物类型为特点,WHU-Hi-HongHu 数据集则提供了更加真实和多样化的环境数据。这些数据集的多样性使得 ConvMamba 的性能评估更加全面和具有说服力。实验结果表明,ConvMamba 在分类精度和计算效率方面均优于传统方法,显示出其在实际应用中的潜力。

在消融研究中,我们进一步验证了 ConvMamba 框架中各个组件的有效性。通过移除 Mamba-Conv 或 CenterFusion 模块,我们观察到分类性能的显著下降,这表明这两个模块在模型中起到了关键作用。此外,我们还分析了不同参数设置对模型性能的影响,发现合理调整模型参数可以进一步提升分类精度。这些分析结果为 ConvMamba 的优化提供了理论依据。

在模型复杂性分析中,我们比较了 ConvMamba 与其他方法在计算效率方面的差异。实验结果表明,ConvMamba 在保持高分类精度的同时,显著降低了计算成本。这使得 ConvMamba 在实际应用中更具优势,特别是在资源有限或需要实时处理的场景下。此外,我们还分析了模型在不同数据集上的泛化能力,发现 ConvMamba 在多种环境下均能保持良好的分类性能。

ConvMamba 的成功在于其对 SSMs 和 CNN 的有效结合。这种结合不仅弥补了传统方法的不足,还使得模型能够在保持高精度的同时,提高计算效率。此外,其模块化设计和灵活的参数设置,使得模型能够适应不同的应用场景。这些特点使得 ConvMamba 在 HSI 分类任务中具有广泛的应用前景。

在实际应用中,HSI 分类需要考虑多个因素,包括数据的规模、复杂性以及处理的实时性。ConvMamba 框架通过减少计算复杂度,使得模型能够在资源有限的条件下实现高效运行。同时,其在多个数据集上的实验结果表明,该框架在分类精度和计算效率方面均优于传统方法,显示出其在实际应用中的潜力。此外,ConvMamba 的模块化设计也使得其具备良好的扩展性,可以适应不同规模和复杂度的 HSI 数据集。

本文的研究结果不仅为 HSI 分类提供了新的方法,也为其他高维数据的处理提供了参考。ConvMamba 的成功在于其对 SSMs 和 CNN 的有效结合,这种结合不仅弥补了传统方法的不足,还使得模型能够在保持高精度的同时,提高计算效率。此外,其模块化设计和灵活的参数设置,使得模型能够适应不同的应用场景。这些特点使得 ConvMamba 在 HSI 分类任务中具有广泛的应用前景。

ConvMamba 的研究不仅在技术层面具有重要意义,也在实际应用中展现了巨大的潜力。随着遥感技术的发展,HSI 分类的应用场景将不断扩展,对模型的性能和效率要求也将不断提高。ConvMamba 通过优化光谱-空间信息的融合方式,提高了分类精度,同时降低了计算成本,为未来的研究提供了新的方向。此外,其模块化设计和灵活的参数设置,使得模型能够适应不同的应用场景,具备良好的扩展性。

在本文中,我们不仅提出了一种新的框架,还通过实验验证了其有效性。实验结果表明,ConvMamba 在分类精度和计算效率方面均优于传统方法,显示出其在实际应用中的潜力。此外,消融研究进一步验证了框架中关键组件的有效性,表明 ConvMamba 在保持高分类精度的同时,显著降低了计算成本。这些结果为 HSI 分类提供了新的思路,并为其他高维数据的处理提供了参考。

总之,ConvMamba 框架通过结合 SSMs 和 CNN 的优势,有效解决了 HSI 分类中的复杂挑战。其在多个数据集上的实验结果表明,该框架在分类精度和计算效率方面均具有显著优势,显示出其在实际应用中的潜力。此外,其模块化设计和灵活的参数设置,使得模型能够适应不同的应用场景,具备良好的扩展性。这些特点使得 ConvMamba 在 HSI 分类任务中具有广泛的应用前景,为未来的研究提供了新的方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号