
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向语义分割模型训练的战略性采样优化研究:以耕地地块提取为例
【字体: 大 中 小 】 时间:2025年09月21日 来源:Remote Sensing of Environment 11.4
编辑推荐:
【编辑推荐】针对遥感影像语义分割中训练样本标注成本高的问题,研究人员通过元分析和案例研究,提出了一种基于熵和边缘复杂度的平衡采样方法,将训练样本需求从4%降至2.5%,并通过样本迁移进一步降至0.5%,为深度学习在遥感制图中的高效应用提供了重要实践指导。
在遥感技术飞速发展的今天,语义分割已成为自然资源监测和城市管理等领域不可或缺的技术手段。通过为图像中的每个像素分配类别标签,语义分割能够精确识别地表覆盖类型,为农业调查、城市扩张检测和土地利用制图等应用提供关键数据支撑。然而,尽管深度学习模型在语义分割任务中表现出色,但其性能高度依赖于大量高质量标注样本。与传统计算机视觉领域不同,遥感影像语义分割面临着一个严峻挑战:训练样本通常无法通用。由于地理模式的复杂性和土地类别系统的区域性差异,针对每个新的制图项目,研究人员往往需要从头开始标注大量样本,这一过程既耗时又耗力。
为了最小化训练样本收集的工作量,战略性采样成为缓解这一痛点的关键途径。战略性采样旨在通过优化样本数量、分布和迁移策略,以最少的样本达到最佳模型性能。尽管在传统像素分类中已有相关讨论,但针对语义分割的图像块采样研究仍处于初步阶段。现有研究多基于主观判断或标注预算确定训练样本量,缺乏系统性的指导原则。样本分布策略也以随机采样为主,可能导致样本冗余或少数类别代表性不足。此外,如何利用全局样本减少本地样本需求的迁移方法尚未得到充分探索。
为了解决这些问题,浙江大学的研究团队在《Remote Sensing of Environment》上发表了一项综合性研究,通过元分析和多案例研究相结合的方式,系统探讨了语义分割中的战略性采样策略。研究聚焦三个核心问题:训练样本量的饱和点、图像块形式训练样本的最有效分布方式,以及模型迁移和样本迁移在减少本地样本需求方面的性能对比。
研究采用了多种技术方法,包括基于ResUNet-a的深度学习模型、Tanimoto距离损失函数和GTC(Global Total-Classification)评价指标。元分析部分筛选了334篇2015-2024年间的期刊论文,提取了样本量、分布策略和迁移方法等关键信息。案例研究部分构建了一个包含12,000多个高质量标注图像块的开源数据集(CCPTD),覆盖中国五个典型农业区的耕地地块提取任务。通过设计不同采样配置的实验,研究人员系统评估了随机采样与平衡采样、无迁移与迁移方法的性能差异。
元分析发现,当前语义分割研究中的训练样本比例呈现两极分化趋势,主要集中在低于1%或高于20%的区间,中位数为4.2%。超过一半的研究采用随机采样策略,仅5.2%的研究使用平衡采样。迁移方法的应用仍较少(7.9%),其中模型迁移(5.9%)比样本迁移(2.0%)更常见。二元分类任务的平均训练样本比例甚至高于多分类任务,表明类别数量并非决定样本量的主要因素。
通过比较随机采样和平衡采样的GTC曲线,研究发现平衡采样能够将训练样本需求从3.3%降至2.5%,同时略微提升模型性能(GTC从0.267降至0.257)。这种优势在耕地形态复杂的地区(如广西、湖北)尤为明显。
样本迁移和模型迁移均能将本地样本需求从2.5%大幅降至0.5%,但迁移方法的性能略低于无迁移策略(GTC:0.298和0.308 vs. 0.257)。样本迁移的准确性稍高于模型迁移,因其能够从头训练模型,更好地整合本地和全局样本。
视觉对比和统计指标均表明,超过最优样本量(2.5%)后,增加样本对模型性能的提升微乎其微,证实了样本量饱和点的存在。
研究表明,通过组合平衡采样和样本迁移策略,能够将训练样本需求从随机采样时的3.3%显著降至0.5%,为资源受限的制图项目提供了实用解决方案。
研究结论强调,战略性采样是实现遥感语义分割高效应用的关键。通过元分析和案例研究,团队提出了一个启发式框架,帮助用户快速确定经济高效的训练样本配置。平衡采样方法通过结合先验类别比例和边缘复杂度,有效提升了样本多样性,减少了冗余标注。迁移方法虽会轻微降低准确性,但能极大缓解样本收集压力。这些发现不仅适用于耕地提取,还可推广到其他遥感语义分割任务中,为深度学习在业务化制图中的广泛应用提供了重要实践指导。未来研究可进一步探索类别数量与样本需求的关系,以及迁移方法在跨域应用中的优化策略。
生物通微信公众号
知名企业招聘