动态语义协同多尺度半监督分割技术在遥感图像中的应用

《Advances in Space Research》:Dynamic Semantic-Collaborative Multi-Scale Semi-Supervised Segmentation for Remote Sensing Images

【字体: 时间:2026年02月15日 来源:Advances in Space Research 2.8

编辑推荐:

  多尺度半监督语义分割框架DSCS通过动态阈值调整和双向对称嵌入学习提升遥感图像分割精度与标注效率,实验表明在低标注率下显著优于现有方法。

  
李慧慧|潘华建|刘晓勇|李哲|胡琼|宋少忠|李彦秋
广东理工学院计算机科学学院,广州,510630,中国

摘要

半监督语义分割旨在减少对大规模像素级注释的依赖,然而现有的遥感图像处理方法往往受到严重尺度变化、不可靠的伪标签以及跨尺度特征一致性不足的限制,导致在低注释比率下性能下降。本工作的目标是通过解决这些限制来提高高分辨率遥感图像的分割精度和注释效率。为此,我们提出了一种具有动态语义协同机制的多尺度半监督框架,称为DSCS。所提出的多尺度一致性学习(MSCL)模块采用动态阈值策略来选择性地利用可靠的伪标签,并强制实现跨尺度特征对齐,而双向对称嵌入学习(BSEL)模块进一步增强了教师-学生在特征和输出空间中的协作。在LoveDA和Potsdam数据集上的实验表明,DSCS在5%–20%的标注设置下始终优于现有方法,尤其是在具有明显尺度多样性的复杂场景中。

引言

遥感(RS)技术已广泛应用于变化检测(Liu等人,2025年)、目标识别(Park等人,2023年)和水资源监测(Song等人,2025年)等多个领域,是理解地表动态的关键工具。在此背景下,遥感图像的语义分割是计算机视觉和遥感领域的一个基本研究方向,其目的是为每个像素分配语义标签,以实现地面对象的精确识别和分类。这项技术在灾害预防、土地利用监测、环境保护和城市规划等方面具有广泛的应用前景(Li等人,2025年)。随着地球观测卫星数量的增加,遥感数据量呈爆炸性增长,为该领域的深度学习应用提供了丰富的数据基础。然而,遥感图像的像素级注释因其高要求而受到限制,需要领域专家投入大量时间和精力。例如,对Cityscapes数据集(Gibril等人,2024年)中的单个1024×2048像素城市场景图像进行注释大约需要1.5小时的专业工作。在更高分辨率的数据集(如DeepGlobe(Tejenaki等人,2019年)上,由于覆盖范围更大、地形类别更复杂,每张图像的注释时间可能长达3–4小时。此外,这一过程容易受到人为错误的影响,包括类别混淆和边界不准确。这些大量的时间要求和固有的注释不一致性给构建大规模、高质量标注数据集带来了重大障碍,从而限制了深度学习模型在遥感语义分割任务中的广泛应用和性能。
为了解决注释稀缺问题,研究人员探索了弱监督(使用图像级标签/草图)、无监督(通过聚类/生成模型)和半监督学习方法(Zhang等人,2020年)。虽然弱监督方法的表现不如全监督方法,无监督技术在处理复杂场景时也存在困难,但半监督学习使用最少的标签就能达到接近全监督的性能,因此特别适用于成本高昂的遥感注释场景。
半监督学习的核心理念(Li等人,2024年)在于设计有效的正则化策略或伪标签生成机制,以充分利用未标注数据中的潜在信息。当前主流的半监督语义分割方法主要遵循四种技术范式:一致性正则化、伪标签生成、对比学习和混合策略。然而,将它们应用于遥感图像时会遇到独特的挑战。基于一致性的方法(例如Mean Teacher Tarvainen和Valpola(2017年)通过教师-学生框架和指数移动平均更新以及数据增强技术来强制预测一致性,但在处理遥感图像时表现出较差的多尺度适应性,例如同一场景中同时存在宏观建筑群和微观车辆(如图1(b)中的红色矩形所示)。伪标签生成方法(例如FixMatch(Sohn等人,2020年)使用高置信度阈值进行监督,但在光谱相似的类别之间存在视觉歧义(例如低植被与树木、道路与建筑物的边界,如图1(a)中的紫色矩形所示),导致类别内方差、尺度敏感性和伪标签噪声积累以及小对象遗漏。虽然对比学习方法(例如U2PL(Wang等人,2022b)通过特征空间中的正负样本对提高了特征区分度,但它们本质上面临计算开销和类别不平衡问题。这些方法在自然图像上的成功表明,优化遥感分割性能需要针对其独特的多尺度特性和复杂的空间分布进行算法调整。
为了解决这些挑战,本文提出了一种新颖的半监督遥感语义分割模型,通过两项关键技术创新实现了突破。首先是多尺度一致性学习(MSCL)模块的设计,该模块采用分层特征对齐方法,并在不同尺度上进行动态阈值调整,显著提高了模型对极端尺度变化的适应性。第二项创新是引入了双向对称嵌入学习(BSEL)模块,在压缩特征空间中建立了教师模型和学生模型之间的双重约束。通过这种多层次的协作设计,DSCS有效解决了当前半监督语义分割任务中的挑战。本文主要有三个贡献:1)开发了MSCL机制,利用动态阈值调整的分层特征对齐显著提高了模型对复杂尺度变化噪声的鲁棒性;2)引入了BSEL模块,通过压缩特征空间中教师模型和学生模型之间的双向协作约束增强了特征表示;3)在LoveDA和Potsdam数据集上的广泛实验证明了我们提出的模型优于现有方法。
本文的结构如下:第二节系统回顾了相关研究;第三节详细介绍了所提出的框架;第四节展示了实验设计和结果分析;第五节总结了本文并讨论了未来的研究方向。

部分摘录

全监督语义分割

语义分割作为计算机视觉的核心任务之一,旨在为图像中的每个像素分配语义类别标签,在遥感图像分析、自动驾驶和医学图像处理等领域有广泛的应用(Guo等人,2018年)。早期的语义分割方法主要依赖于传统的机器学习技术,如随机森林(Rigatti,2017年)和条件随机场(CRFs)(Chen等人,2014年),这些方法依赖于手工制作的特征(例如,

方法

在本节中,我们介绍了所提出方法的三部分描述。首先详细介绍了本研究开发的新颖多尺度一致性学习(MSCL)方法。随后,我们详细阐述了第二个关键创新——双向对称嵌入学习(BSEL)模块。最后一部分全面解释了我们完整框架的集成优化函数和训练流程。我们提出模型的架构概述是

实验

在本节中,我们首先介绍了实验研究中使用的数据集。然后,我们提供了关于实验设置和评估指标的详细信息。最后,我们讨论了各个模块的消融研究以及与现有最先进方法的比较实验。

结论

本文提出了一种针对遥感图像的半监督语义分割方案,创新性地结合了混合监督损失、多尺度一致性学习和嵌入对称学习,以解决标签高效分割中的三个基本挑战:多尺度特征学习、语义连续性保持和特征空间对齐。在LoveDA和Potsdam等基准数据集上的全面实验表明了该方案的高性能

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了广东省科学技术项目(项目编号KTP20240126和KTP20210197)、广东省教育厅项目(项目编号2022KTSCX068)以及广东省基础与应用基础研究基金会(项目编号2023A1515010939)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号