SemSAM-CD:基于语义引导与SAM优化的弱监督遥感变化检测新方法

《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:SemSAM-CD: A Novel Weakly Supervised Change Detection Method Based on Semantic Guidance and Segment Anything Model Refinement

【字体: 时间:2025年12月19日 来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4

编辑推荐:

  针对遥感变化检测中像素级标注成本高昂的难题,研究人员开展了基于图像级弱监督学习(WSL)的研究。他们提出SemSAM-CD方法,通过多阶段知识蒸馏框架整合类别激活图(CAMs)的定位能力与Segment Anything Model(SAM)的分割优势,有效缓解了伪标签中的语义偏差和边界模糊问题。在三个高分辨率数据集上的实验表明,该方法显著优于现有弱监督变化检测(WSCD)方法,为动态环境监测提供了更可行的技术方案。

  
随着城市化进程的快速推进,如何精准监测地表动态变化已成为遥感技术领域的重要课题。遥感变化检测(RSCD)通过分析不同时间获取的配准遥感影像,能够有效识别土地利用、建筑物变化等信息,为城市管理、环境监测和灾害评估提供关键数据支持。然而,传统方法依赖手工特征提取,在复杂环境下泛化能力有限,而基于深度学习的方法虽然表现出色,却需要大量像素级标注数据作为支撑。获取高分辨率遥感图像的精确像素级标注不仅成本高昂且极为耗时,这一瓶颈严重制约了变化检测技术的实际应用和推广。
面对这一挑战,弱监督学习(WSL)特别是基于图像级标签的方法逐渐受到关注。这类方法仅需图像级别的"变化"或"未变化"标签即可进行模型训练,极大降低了标注成本。然而,弱监督信号固有的模糊性和有限的空间精度,导致生成的类别激活图(CAMs)常常出现语义偏差和边界模糊两大问题。语义偏差表现为对目标区域的激活不足或过度激活,而边界模糊则导致目标轮廓不清晰,特别是在形状复杂或密集分布的物体上尤为明显。
为了解决这些问题,刘敏、彭代峰、张永军等研究人员在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上发表了一项创新性研究,提出了名为SemSAM-CD的弱监督变化检测方法。该方法巧妙地将CAMs的定位优势与Segment Anything Model(SAM)的强大分割能力相结合,通过语义引导和SAM优化两阶段策略,显著提升了弱监督条件下变化检测的准确性。
研究团队采用了几项关键技术方法:首先构建了基于多阶段知识蒸馏的弱监督训练框架,通过教师-学生网络结构实现特征学习;其次设计了语义学习模块,包含跨图像一致性学习(CIC)和跨像素相似性学习(CPS),分别从全局和局部尺度优化特征表示;然后开发了CAM到伪标签的转换模块,通过局部极大值滤波和Otsu算法生成点提示,并基于特征相似性扩展生成框提示;最后利用SAM模型结合多提示策略生成高质量伪标签,用于训练基于DeepLabV3+的完全监督变化检测模型。
在弱监督训练阶段,研究人员设计了一个多阶段知识蒸馏框架。教师网络和学生网络均采用Siamese ResNet50作为特征提取主干,分别通过特征差异和特征拼接进行双时相特征融合。通过初始知识蒸馏,学生网络学习教师网络的分类表示。语义学习模块则进一步优化特征空间建模,其中跨图像一致性学习(CIC)利用"未变化"特征的确定性语义作为先验信息,通过构建全局未变化语义原型PtGun,引导特征空间中对未变化类别的识别,有效减少漏检。跨像素相似性学习(CPS)针对"变化"图像对,通过选择高置信度种子点构建局部语义原型,基于特征距离建立高斯分布,通过对比损失优化像素级语义关系,提升边界定位精度。
多尺度融合推理策略进一步增强了模型性能。输入图像被缩放到多个尺度(0.5、1.0、1.5、2.0),对应的类别激活图CAMscale被融合生成最终输出CAMfused。这种策略使模型能够捕获不同尺度下的特征信息,提高分割结果的鲁棒性。
在CAM到伪标签的转换阶段,研究团队设计了一个创新的提示生成模块。首先通过局部极大值滤波(LMF)方法从CAM中提取密集局部峰值点,经Otsu算法过滤后作为点提示。针对Otsu分割在密集目标簇中存在的欠分割问题,研究人员利用SAM编码器生成的双时相图像特征,计算查询向量与特征图的相似性响应,通过评估掩模重叠度选择最优时相图像,并基于面积约束条件扩展边界框提示。这种点提示与框提示的协同使用,有效克服了单一提示类型的局限性,显著提升了伪标签的边界质量。
完全监督训练阶段采用DeepLabV3+分割器,其编码器生成多尺度特征,包括高层语义特征和低层空间特征。特征差异经过空洞空间金字塔池化(ASPP)模块处理,与低层特征差异拼接后送入解码器。二元交叉熵损失函数用于优化模型参数,最终生成像素级变化检测结果。
研究团队在LEVIR-CD、WHU-CD和GZ-CD三个高分辨率变化检测数据集上进行了全面实验,结果表明SemSAM-CD在各项指标上均显著优于现有弱监督变化检测方法。在LEVIR-CD数据集上,SemSAM-CD的F1分数和IoU分别达到68.71%和52.34%,优于对比方法中最高的ESAM-CD(62.46%和45.41%)。在WHU-CD数据集上,F1分数和IoU达到86.16%和75.68%,明显高于CS-WSCDNet的79.57%和66.07%。在GZ-CD数据集上,该方法也取得了80.73%的F1分数和67.69%的IoU,展现出优秀的泛化能力。
消融实验进一步验证了各模块的有效性。语义学习模块使LEVIR-CD数据集的F1分数提升3.37%,而跨像素相似性学习进一步带来3.24%的提升。多阶段知识蒸馏策略在WHU-CD数据集上使F1分数和IoU分别提高5.01%和7.40%。SAM优化阶段的单时相定位分割策略相比差异图像分割方法,在三个数据集上的F1分数分别提升5.71%、10.08%和5.13%。多提示策略(点提示+框提示)相比单一提示方法,IoU指标提升2.8-7.8个百分点。
在计算效率方面,SemSAM-CD展现出良好的实用性。虽然多阶段方法参数规模较大,但浮点运算次数(FLOPs)显著低于单阶段模型如FCD-GAN和BGMix。最终推理阶段仅依赖轻量级检测网络,推理速度达到每张图像16.34毫秒,优于大多数对比方法。
该研究的结论部分强调,SemSAM-CD通过语义引导和SAM优化的协同作用,有效解决了弱监督变化检测中的核心挑战。多原型语义学习模块增强了模型对不同类别特征的区分能力,而双提示SAM优化策略则显著提升了边界定位精度。这种方法不仅为高分辨率遥感变化检测提供了一种更实用的解决方案,也为弱监督学习在其他视觉任务中的应用提供了有益借鉴。
讨论部分指出,尽管SemSAM-CD在建筑物变化检测上表现优异,但在非建筑物或不规则形状目标上的性能仍有提升空间。SAM提示生成策略对规则几何形状目标更为有效,而全局建立的未变化语义原型在应用于多样化目标时可能出现偏差。未来工作将聚焦于优化原型构建和更新策略,引入结构先验增强边界判别力,并探索端到端的联合优化框架,以进一步提升方法在复杂变化场景中的适应性和泛化能力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号