ViCxLSTM:融合扩展长短期记忆与视觉Transformer的复杂遥感场景分类新方法

【字体: 时间:2025年09月02日 来源:International Journal of Applied Earth Observation and Geoinformation 8.6

编辑推荐:

  为解决遥感场景分类中局部特征提取与长程空间依赖建模的难题,研究人员提出ViCxLSTM混合架构,集成CNN、傅里叶变换、xLSTM和ViT模块,在NWPU-RESISC45等数据集上实现75.71%的总体准确率,显著优于ResNet和传统ViT模型,为高分辨率遥感影像分析提供新范式。

  

在遥感技术飞速发展的今天,高分辨率遥感影像(HRRS)的场景分类已成为城市规划、环境监测等领域的关键技术。然而,现有方法面临三大挑战:传统卷积神经网络(CNN)难以捕捉全局上下文,视觉Transformer(ViT)对局部细节不敏感,而长短期记忆网络(LSTM)存在存储容量有限和并行化困难等问题。这些局限导致复杂场景下特征判别力不足,制约了分类精度的提升。

为突破这些瓶颈,Swalpa Kumar Roy、Ali Jamali等研究者创新性地提出ViCxLSTM架构,相关成果发表在《International Journal of Applied Earth Observation and Geoinformation》。该研究通过整合四种核心模块:局部模式单元(LPU)包含CNN和傅里叶变换用于多尺度特征提取,扩展长短期记忆(mLSTM)实现双向序列建模,以及视觉Transformer(ViL)捕捉全局注意力机制,构建了端到端的双流深度学习框架。研究采用NWPU-RESISC45、AID和UC-Merced三个标准数据集,通过50个epoch的训练,使用AdamW优化器和交叉熵损失函数进行模型优化。

2.1 mLSTM模块

通过矩阵记忆Ct∈Rd×d替代传统LSTM的标量状态,采用指数门控和协方差更新规则(公式4-10),解决了信息压缩和并行化难题。实验显示mLSTM在机场场景的F1-score达0.57,较基线ViT提升78%。

2.2 ViL模块

创新性地设计交替双向处理机制:奇数块自上而下、偶数块自下而上处理图像块序列(公式13-14)。在NWPU数据集上,该模块使教堂分类准确率从0.43提升至0.70。

2.3 傅里叶变换模块

通过二维傅里叶变换(公式17)和log(1+|F(X)|)动态压缩(公式19),在森林场景中实现0.93的F1-score,比空间域特征提高8%。

2.4 LPU单元

四级卷积层(32→64→128→192通道)与频域特征拼接(公式24),在港口场景中准确率达0.87,证明多模态特征融合的有效性。

3.1 数据集表现

在NWPU-RESISC45上,ViCxLSTM以75.71%的总体准确率(OA)超越ResNet-152(61.94%)和DeepViT(55.71%);在AID数据集上,其63.76%的OA显著优于CrossViT(40.48%);即便在样本量最小的UC-Merced数据集,仍以48.48%的OA领先。t-SNE可视化显示,模型对海滩、森林等特征明显的类别形成紧密聚类,而存储罐等复杂场景存在特征重叠。

5.4 计算效率

模型参数量达3.6M,在NWPU数据集训练耗时77分钟,虽高于ResNet-50(25分钟),但准确率提升12.76%,验证了性能-效率的合理权衡。

这项研究开创性地将xLSTM引入遥感领域,通过四种模块的有机融合,首次实现局部纹理到全局上下文的协同建模。特别值得注意的是,在UC-Merced小样本场景下,模型对高尔夫球场等类别仍保持0.83的高F1-score,展现出强泛化能力。研究者公开的代码库(https://github.com/aj1365/ViCxLSTM)为后续研究提供重要基准,其模块化设计也为遥感专用网络架构探索指明方向。未来工作可进一步优化计算成本,并探索在时序遥感分析中的应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号