《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:Few-Shot Object Detection on Remote Sensing Images Based on Decoupled Training, Contrastive Learning and Self-Training
编辑推荐:
本文针对遥感图像中少样本目标检测(FSOD)面临的特征表示受限和复杂背景干扰等挑战,提出了一种融合自训练、解耦训练和对比学习的创新框架DeCL-Det。研究团队通过GCFPN模块实现多尺度特征解耦学习,结合对比学习头增强特征判别力,并引入自训练策略生成高质量伪标注。在DIOR和NWPU VHR-10数据集上的实验表明,该方法在3-shot/5-shot/10-shot设置下分别达到32%/33%/43%的mAP,显著优于TFA、FSCE等基线模型,为小样本遥感检测提供了新思路。
随着高分遥感技术的飞速发展,如何让机器像人眼一样精准识别卫星图像中的各类目标,成为智慧城市、环境监测等领域的核心挑战。虽然深度学习模型在常规目标检测任务中表现优异,但它们就像"大数据饕餮",需要吞噬海量标注数据才能发挥作用。而在遥感领域,对飞机、船舶等特定目标进行精细标注不仅耗时费力,更面临样本稀缺的天然困境——可能仅有几张带标注的图像就要让模型学会识别全新类别,这就是少样本目标检测(FSOD)亟待破解的难题。
传统方法在应对遥感图像时尤其吃力:一方面,同一场景中可能存在尺度差异千倍的目标(如巨型油轮与小型渔船);另一方面,复杂背景会产生大量误检和漏检。更棘手的是,经典检测器Faster R-CNN内部存在根本性矛盾——区域提议网络(RPN)负责寻找可能包含物体的区域(与具体类别无关),而检测头(RCNN)需要对区域内的物体进行分类(与类别相关),这种"职责冲突"在样本稀缺时会显著放大模型的训练难度。
针对这些挑战,西北工业大学张顺团队在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》发表的研究中,提出了名为DeCL-Det的创新框架。该研究巧妙融合了三项关键技术:通过自训练策略从无标注数据中挖掘伪标签,借鉴"三人行必有我师"的思想扩充训练样本;设计梯度连接特征金字塔网络(GCFPN)实现多尺度特征解耦学习,让RPN和RCNN各司其职;引入对比学习头增强特征判别力,使同类目标特征更紧凑、异类特征更疏远。
关键技术方法概述
研究采用三阶段训练策略:先在基础类别大数据集上预训练,再平衡基础类与新类别样本进行微调,最后通过自训练迭代优化。核心技术包括:(1)GCFPN模块集成特征金字塔网络(FPN)与梯度解耦层(GDL),通过λ系数控制梯度反向传播,实现RPN与RCNN的解耦训练;(2)对比学习头使用单隐藏层MLP将RoIAlign特征映射到嵌入空间,基于InfoNCE损失优化特征分布;(3)自训练阶段采用DINO-ViT模型提取特征训练KNN分类器,通过双重验证机制筛选高置信度伪标签。实验在DIOR和NWPU VHR-10数据集上进行,涵盖3/5/10/20/30-shot等多种设置。
GCFPN模块设计
如图2所示,GCFPN通过FPN提取P2-P6多尺度特征,其中P2-P5特征通过GDLrcnn连接至RCNN头,P2-P6特征通过GDLrpn连接至RPN。GDL在前向传播时执行仿射变换(公式3:G(w,b,λ)(f)=w·f+b),在反向传播时通过λ∈(0,1)控制梯度缩放(公式4:dG(w,b,λ)/df=λ·?w)。这种设计使得RPN专注于前景-背景分离,RCNN专注于细粒度分类,有效缓解了梯度冲突。
对比学习机制
研究团队发现传统RoI分类头经过ReLU激活后特征相似度易被截断,不利于少样本场景下的特征区分。如图3所示,他们设计了对比提议编码(CPE)损失函数(公式7),仅对前景目标计算相似度:Lzi=-1/(Nyi-1)∑j≠iI{yi=yj}·log(exp(z?i·z?j/τ)/∑k≠iexp(z?i·z?k/τ))。该方法通过温度参数τ调节分布锐度,并引入IoU加权函数f(ui)强调高质量提案的重要性。
自训练策略
为解决目标域标注稀缺问题,如图4所示,研究采用迭代自训练框架:首先使用基础模型对未标注图像生成初步检测结果,然后通过DINO-ViT提取目标区域特征,训练KNN分类器进行二次验证。仅当检测器预测与KNN分类结果一致时,才保留伪标注加入训练集。这种双重验证机制将3-shot设置下的mAP提升了2.2%(表III),特别对棒球场、篮球场等低类内差异目标效果显著。
实验结果分析
在DIOR数据集上(表I),DeCL-Det在20个类别的综合评估中表现卓越。以10-shot设置为例,新颖类检测mAP达43%,较基准Faster R-CNN提升15个百分点。特别在分割1的实验配置下(表II),该方法在3/5/10-shot设置下分别达到32%/33%/43%的mAP,显著优于对比方法。可视化结果(图5)显示,该方法能准确检测密集小目标(如港口船舶群),而TFA等基线模型存在严重漏检。
图6展示了30-shot设置下的典型检测结果:飞机、篮球场等大目标检测准确,车辆等小目标也有较好表现。但红色椭圆标出的失败案例显示,模型对风力发电机等外形相似目标仍存在误判,且边界框回归精度有待提升。辅助网络修正案例(图7)证实,DINO-ViT能有效纠正初始误检(如将误判为飞机的目标修正为风力发电机),但对高相似度目标的区分能力有限。
结论与展望
本研究通过有机整合解耦训练、对比学习和自训练三大技术路线,成功构建了适用于遥感图像的少样本检测框架。GCFPN模块有效解决了Faster R-CNN内部模块的优化冲突,对比学习机制增强了特征判别力,自训练策略则巧妙突破了标注数据稀缺的瓶颈。实验表明该方法在DIOR和NWPU VHR-10数据集上均达到领先水平,特别在3-shot等极端稀缺场景下展现强大适应性。
未来研究可从三方面深入:一是优化伪标签定位策略,提升小目标检测精度;二是开发更高效的特征提取网络,降低217.78 GFLOPS的计算开销;三是探索跨域泛化能力,验证方法在多种遥感数据集上的适应性。这项工作不仅为少样本遥感检测提供了实用解决方案,更启示我们:通过模块化设计化解架构冲突,结合自监督技术挖掘无标注数据价值,将是突破小样本学习瓶颈的重要路径。