基于数据集驱动和解决策略感知的提示学习方法,用于少样本遥感场景分类

《Knowledge-Based Systems》:Collection-driven and Resolution-aware Prompt Learning for Few-Shot Remote Sensing Scene Classification

【字体: 时间:2025年12月23日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  针对遥感图像分类中类间相似度高、类内差异大的问题,本文提出CRNet方法,通过集合驱动的共同性生成和分辨率感知的视觉提示模块,结合共享层促进多模态知识交互,有效提升模型泛化能力,并在四个基准数据集上验证其优越性。

  
在遥感图像场景分类任务中,视觉语言模型(VLMs)面临着双重挑战:高内类相似性与高外类差异性。这一矛盾源于遥感数据特有的光谱特征复杂性和空间分辨率多样性,导致传统分类模型难以有效捕捉类内细微差异与类间本质区别。针对这一瓶颈,研究者提出CRNet(Collection-driven and Resolution-aware Prompt Learning),通过构建跨类知识共享机制和分辨率感知视觉提示框架,显著提升了少样本学习场景下的模型泛化能力。

方法创新的核心体现在两个模块的协同优化。首先, Collection Commonality Generation(CCG)模块通过大语言模型(LLMs)对遥感类别进行聚类重构。该模块突破传统静态模板的局限,利用动态类群划分策略,将原本存在高相似性的类目自然划分为具有内在关联的子集群。例如在PatternNetv2数据集中,CCG模块通过分析"农田-林地-水域"的光谱特征共性,成功将原本难以区分的类目重新划分为3个具有明确光谱特征的子集群。这种类群重构策略不仅有效降低了跨类相似度,更通过引入子集群间的语义关联,为后续特征对齐奠定了基础。

其次, Resolution-aware Visual Prompt(RVP)模块采用多尺度感知策略,通过拉普拉斯金字塔分解实现分辨率自适应。该模块在保持原始图像关键结构信息的同时,针对不同类别的空间特征差异进行动态调整。实验表明,对建筑物类采用0.5倍分辨率提示可使类内相似度提升27%,而对植被类使用2倍分辨率放大则能增强边缘特征提取能力。这种分辨率感知机制不仅缓解了单一分辨率带来的信息损失,更通过多尺度特征融合有效抑制了类内多样性。

两个核心模块的协同作用通过共享交互层实现。该层位于编码器高层,专门设计用于跨模态特征融合。具体而言,CCG生成的类群共性文本特征与RVP提取的多分辨率视觉特征在此层进行双向交互:文本特征引导视觉特征关注关键语义区域,而视觉特征反哺文本理解的空间上下文。这种闭环知识共享机制使得模型既能捕捉光谱共性,又能理解空间细节,在MLRSNet和NWPU-RESISC45数据集上分别达到98.2%和89.7%的top-1准确率。

实验设计充分验证了方法的有效性。在四大数据集(MLRSNet、NWPU-RESISC45、PatternNetv2、RSICD)上的对比测试显示,CRNet在基类泛化(Base-to-New)和跨域泛化(Domain Generalization)任务中均超越现有最优方法。特别是当标注样本数降至5个/类时,CRNet仍能保持87.4%的平均准确率,相比传统方法提升14.3个百分点。消融实验进一步证实:CCG模块使类间相似度降低至0.32(基线0.45),RVP模块将类内方差缩小38.7%,而共享层的引入使跨模态对齐误差降低至0.21(原0.34)。

该方法的创新性体现在三个维度:其一,首创类群共性与多分辨率感知的联合优化框架,解决了现有方法中单一维度的改进局限;其二,通过LLMs动态生成类群划分策略,突破传统固定聚类方法的性能天花板;其三,设计分层特征共享机制,既保证低层特征的空间一致性,又维持高层语义的跨模态对齐。这些技术突破使得模型在面对具有复杂光谱混合(如城市建筑与农田的叠加区域)和空间异质性(如云层覆盖下的植被分类)时,仍能保持稳定的分类性能。

实际应用价值方面,CRNet在卫星图像实时分类场景中表现出显著优势。通过将CCG模块生成的类群共性特征与RVP提取的多尺度视觉特征进行动态加权组合,系统在处理0.5米分辨率图像时,误检率较传统VLM降低42%。在灾害监测领域,该方法对滑坡区域(含植被、裸土、水体混合)的分类准确率达到91.3%,较现有方法提升19.6%。特别是在跨传感器数据融合场景中,CRNet通过共享层实现不同分辨率影像的特征互补,使多源数据融合后的分类F1-score达到0.892,超越单一传感器数据的表现。

该研究对遥感图像处理技术发展具有启示意义。首先,提出的类群共性挖掘方法为解决语义鸿沟问题提供了新思路,特别在缺乏标注数据的遥感场景中,LLMs生成的动态类群划分策略可显著提升少样本学习的鲁棒性。其次,多分辨率视觉提示框架的构建,为应对不同空间分辨率遥感数据的异构性问题提供了有效解决方案,相关技术可延伸至无人机影像分析等动态场景。更重要的是,共享交互层的设计验证了跨模态特征融合的关键性,这为构建通用型遥感智能分析平台奠定了理论基础。

在工程实现方面,研究者采用模块化设计策略,使CRNet能够灵活适配不同规模的遥感数据集。通过预训练LLMs微调模块,系统可快速适应新出现的遥感场景类别。实际部署时,采用动态分辨率分配机制,根据影像分辨率自动选择RVP模块的参数配置,在MLRSNet数据集上实现推理速度提升23%的同时,保持分类精度稳定。此外,开发的轻量化交互层仅占用总计算量的7.2%,使得整个模型在Jetson Nano平台可实现实时推理(30fps)。

该方法的局限性主要表现在对高光谱数据(波段数>200)的处理能力上,当前架构对多光谱特征的融合深度不足。未来研究可考虑引入光谱注意力机制,在共享层中增加多光谱特征交互模块。另一个改进方向是动态调整类群划分策略,当遇到新型遥感场景时,通过在线微调LLMs实现类群划分的自适应更新。

实验环境配置方面,研究团队采用NVIDIA A100 GPU集群进行训练,单卡训练周期为48小时。数据预处理阶段,开发了自动化光谱增强工具包,可同时处理辐射归一化、云层掩膜和阴影校正等任务。在评估指标上,除传统的准确率(Accuracy)和精确率(Precision)外,特别引入了光谱一致性指数(Spectral Consistency Index, SCI)和空间连续性指数(Spatial Continuity Index, SCI),更全面地反映了遥感场景分类的综合性需求。

从技术演进角度看,CRNet的提出标志着遥感智能分析从单一模态学习向多模态协同学习的跨越式发展。相较于CLIP框架在遥感领域的直接应用,CRNet通过引入类群共性和分辨率感知机制,显著提升了模型对遥感数据特性(光谱异质性、空间分辨率差异)的适应性。在模型压缩方面,采用知识蒸馏技术可将CRNet压缩至原规模的1/3,同时保持90%以上的原始性能,为实际应用中的资源优化提供了可能。

该研究的应用场景已扩展至环境监测、农业评估和灾害预警等领域。例如在长江流域洪涝灾害评估中,CRNet通过多分辨率影像分析,准确识别出受淹农田(F1-score=0.912)和裸露河岸(Recall=0.887),较传统方法提前3天完成灾情评估。在智慧农业项目中,系统可自动识别灌溉区(Precision=0.864)、旱情区(Recall=0.792)和作物病虫害(AUC=0.891),为精准农业提供可靠数据支撑。

最后需要指出的是,该方法的核心思想——通过结构化知识注入缓解模态间对齐困难——对其他跨模态学习任务具有借鉴意义。在医疗影像与文本描述的关联分析、卫星图像与地理文本的语义匹配等领域,均可尝试类似的类群划分与分辨率感知策略。这种普适性的技术框架有望推动遥感智能分析进入新的发展阶段。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号