基于动态阈值伪标签的半监督原型网络:解决类别不平衡的森林树种分类新方法
《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:A Semi-Supervised Prototypical Network with Dynamic Threshold Pseudo-Labeling for Forest Classification
【字体:
大
中
小
】
时间:2025年12月19日
来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4
编辑推荐:
本文推荐一种针对遥感影像树种分类中样本稀缺和类别不平衡问题的创新解决方案。研究人员提出CWPL-SEPNet模型,通过结合通道注意力机制和类别自适应伪标签策略,在普洱市Sentinel-2数据上实现95.14%的整体分类精度,显著优于传统方法,为少样本条件下的森林资源监测提供了有效技术途径。
随着全球气候变化加剧和生物多样性保护需求日益迫切,森林生态系统的精准监测变得尤为重要。传统树种识别方法主要依赖野外调查和专家判读,效率低下且成本高昂,难以满足大尺度森林动态监测的需求。遥感技术的快速发展为这一难题带来了转机,其中Sentinel-2卫星凭借其10-20米的空间分辨率、丰富的光谱波段和高重访频率,已成为森林类型制图的重要数据源。
然而,深度学习在树种分类应用中面临严峻挑战。最突出的问题是标记样本的严重不足——遥感影像中的树种标记数据通常需要通过野外调查或专家标注获取,这一过程既耗时又昂贵。这种"标记瓶颈"严重制约了传统监督学习模型的效果。此外,遥感图像数据集普遍存在类别分布不平衡的问题:优势树种或大规模人工林通常占据较大面积,样本数量充足;而天然稀有物种或次生林往往样本稀少。这种类别不平衡与树种分类固有的复杂性相互交织,进一步增加了深度学习模型训练的难度。
为了减轻监督学习模型对大量标记数据的依赖,少样本学习(FSL)近年来成为研究热点。其中,原型网络(PNet)作为基于度量的元学习方法代表,以其简单性、快速收敛和稳定训练而备受关注。该方法通过在嵌入空间中计算每个类别的平均特征向量作为类原型,并测量欧氏距离进行分类。在遥感领域,原型网络已成功应用于土地覆盖制图、森林分类等任务,在少样本条件下表现出强大的鲁棒性。
尽管如此,原型网络在训练样本数量极少时仍存在局限。在这种情况下,原型估计可能产生偏差,因为有限的样本无法充分表示类内特征分布,导致模型过拟合。为此,研究人员开始将半监督学习引入少样本学习框架,试图通过利用未标记样本来补偿标记数据的不足。在众多半监督方法中,伪标签策略因其简单易用而广受欢迎。该方法使用当前模型对未标记样本生成预测,选择高置信度的预测结果加入训练,使模型能够从更广泛的数据分布中学习并逐步优化分类边界。
然而,传统伪标签方法在少样本遥感分类中面临挑战。固定置信度阈值的选择机制无法适应模型学习过程的动态变化:训练初期模型预测能力较弱,高阈值可能排除大量有价值的伪标签;训练后期模型可能对错误预测过度自信,导致标签噪声积累。更重要的是,在类别不平衡数据集中,多数类通常产生较高置信度输出,而少数类的预测置信度往往较低。固定阈值机制下,模型倾向于选择主导类的伪标签,忽视 underrepresented 类别的样本,加剧了类别不平衡问题。
针对这些挑战,谢逸凡等人提出了一种结合动态阈值伪标签的半监督原型网络框架CWPL-SEPNet,该研究成果发表在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上。
研究方法上,作者主要采用了以下关键技术:基于原型网络(PNet)的少样本学习框架,融入Squeeze-and-Excitation(SE)通道注意力机制构建轻量级骨干网络SEPNet;提出类别自适应伪标签(CWPL)策略,根据各类别置信度分布的分位数动态调整选择阈值;使用中国云南普洱市的Sentinel-2影像数据,采用故意不平衡的数据集划分策略(1%标记训练数据、19%未标记训练数据、80%标记测试数据);在三个公开遥感数据集(GFF-B、Chikusei和Tea Farm)上进行模型泛化能力验证。
随着未标记样本比例的增加,模型在所有三个评估指标上均呈现提升趋势。当使用100%未标记样本时,CWPL-SEPNet达到最高分数:整体准确率(OA)为95.14%、平均准确率(AA)为94.53%、Kappa系数为93.87。与纯监督学习基线相比,这些值分别相对提高了0.88%、2.52%和1.09%。结果表明,引入未标记数据能显著增强模型的分类能力。
分位数参数在伪标签样本选择中起关键作用。实验结果显示,当分位数α设置为0.5时,模型在所有三个指标上达到最佳性能。较低的分位数(α<0.5)导致分类结果不稳定,而较高的分位数(α>0.6)逐渐降低模型性能。中等分数值(0.5≤α≤0.6)能够在伪标签质量和数量之间实现更好平衡。
与固定阈值伪标签(FPL)方法相比,CWPL策略在类别平衡性方面表现更优。在不同未标记数据比例下,FPL在训练早期阶段(episodes<250)始终表现出较高的变异系数(CV)值,表明存在不稳定性和对多数类的偏向。而CWPL在整个训练阶段保持较低且更稳定的CV值,表明伪标签分布更加平衡。
在分类性能方面,CWPL在少数类上 consistently 优于FPL。仅占训练样本2.98%的耕地类别,CWPL下的分类精度达到91.40%,比FPL提高10.84%。其他类别如其他土地、茶园和栎树也分别提高0.23%、2.18%和4.11%。在全局分类性能上,CWPL相比FPL在整体准确率、平均准确率和Kappa系数上分别提高0.94%、1.91%和1.16%。
t-SNE可视化结果显示,两种半监督方法(图8-b和8-c)比监督方法(图8-a)产生更紧凑的类内聚类,分类边界更清晰。与FPL相比,CWPL实现了更紧密的类内聚类和更大的类间分离,特别是减少了耕地与建筑物之间的混淆,增加了栎树与思茅松之间的距离,使边界更加分明。
CWPL-SEPNet在所有比较方法中表现最佳,达到95.14%的整体准确率、94.53%的平均准确率和93.87%的Kappa系数,显著优于支持向量机(SVM)、随机森林(RF)、原型网络(PNet)和TPN-semi等基线方法。传统机器学习方法由于缺乏深度特征提取和空间上下文建模能力,预测图中出现明显的"椒盐"噪声。深度学习方法平均比经典机器学习方法提高10%以上的整体准确率。
局部分类图分析显示,CWPL-SEPNet在空间一致性方面表现优越,保持了类似PNet的结构连续性,同时更准确地描绘了建筑物的空间范围,接近真实特征边界。对于桉树和栎树等复杂类别,CWPL-SEPNet表现出更高的斑块完整性和类内一致性。
在三个公开数据集(Chikusei、GFF-B和Tea Farm)上的实验进一步证实了CWPL-SEPNet的优越性。在Chikusei数据集上,CWPL-SEPNet实现99.73%的整体准确率,比基线提高1.09%;在GFF-B和Tea Farm数据集上,CWPL-SEPNet在大多数类别上也提供了分类精度的提升。
消融研究表明,加入SE模块在不同未标记数据量下均能持续提高分类精度,证明了其稳定的特征增强效果。
研究结论表明,CWPL-SEPNet通过利用未标记数据优化类别原型,增强了泛化能力。基于置信度分位数的伪标签选择策略确保了类别的平衡表示,在类别不平衡和少样本条件下显著优于固定阈值方法。嵌入通道注意力机制(SE模块)到二维卷积骨干网络中,提高了特征表示能力。该模型在云南普洱市的Sentinel-2多光谱影像上进行了评估,结果表明CWPL-SEPNet能够有效分类各种树种,为区域尺度的林业遥感数据智能解译提供了一种新颖实用的方法。
讨论部分指出,半监督原型网络利用未标记数据扩展原型网络支持集,弥补了少样本条件下标记数据不足的缺陷。在森林树种分类任务中,通过伪标签筛选和原型优化,可以修正初始模型的分布偏差,提高泛化能力。CWPL策略通过动态调整每个类别的伪标签选择阈值,缓解了多数类的主导地位,提高了模型在不平衡条件下的性能。与固定阈值方法相比,CWPL在整体准确率、平均准确率和Kappa系数上均有提升,且在类别水平上,分类精度的改善与样本份额呈负相关——份额较小的类别受益更多。
该研究的局限性在于分位数参数的确定主要依赖网格搜索方法,未来研究将专注于开发自适应分位数调整机制,显著减少对手动参数调优的依赖。此外,当前设置中使用类别一致的未标记数据进行伪标签选择,而现实场景中类别模糊性和标签不确定性很常见。未来研究应探索如何在复杂环境中有效利用异构未标记数据。
尽管存在这些局限性,CWPL-SEPNet在林业遥感少样本分类中展现出的优势,为类似挑战的遥感应用(如城市功能区识别、遥感变化检测和灾害评估)提供了有益借鉴。未来工作将集中于探索CWPL机制在这些场景中的可转移性和鲁棒性,并进一步研究其在元学习范式中的应用潜力,通过动态阈值策略增强在极有限标签条件下的模型泛化能力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号