ChangeViT:释放朴素视觉Transformer在遥感图像变化检测中的潜力
【字体:
大
中
小
】
时间:2025年10月12日
来源:Pattern Recognition 7.6
编辑推荐:
本文提出ChangeViT框架,创新性地采用朴素视觉Transformer(ViT)作为主干网络,结合细节捕捉模块(Detail-Capture Module)和特征注入器(Feature Injector),有效整合高维语义特征与细粒度空间信息,在遥感图像变化检测中实现跨尺度性能突破,在LEVIR-CD、WHU-CD等数据集上达到state-of-the-art(SOTA)水平。
• 我们深入研究了朴素ViT的性能,发现其在检测大规模变化方面的优势。基于这一发现,我们提出ChangeViT——一个以朴素ViT为核心特征提取器的简洁高效变化检测框架。
• 为增强多尺度变化检测能力,我们集成细节捕捉模块(Detail-Capture Module)以弥补ViT在小目标检测中的不足,并通过特征注入器(Feature Injector)将细节特征与ViT的高维特征融合,确保模型具备全面的特征表征能力。
• ChangeViT在LEVIR-CD、WHU-CD、CLCD和OSCD四个主流数据集上达到业界最优性能,充分证明方法的优越性。详尽的定量与定性分析验证了所提模块的有效性。
图2展示了整体架构,该框架通过融合高层语义理解与细粒度细节提取,解决双时相遥感图像的变化检测难题。给定输入图像I1∈RH×W×3和I2∈RH×W×3,系统并行通过视觉Transformer(ViT)和细节捕捉模块处理。ViT提取高层语义特征FVt∈RH/16×W/16×C4(t∈{1,2}),其蕴含的全局语义模式对识别大规模变化至关重要。
我们在三个高分辨率数据集(LEVIR-CD、WHU-CD、CLCD)和一个低分辨率数据集(OSCD)上开展广泛实验。为深入理解ChangeViT各组件的作用,第4.5节进行了详尽的诊断性实验(除非特别说明,高分辨率实验均采用ChangeViT-S架构)。
Limitation and Discussion(局限与讨论)
尽管ChangeViT在四大基准测试中表现卓越,仍存在若干局限:其一,其在高级差分特征建模和解码器设计方面的潜力尚未充分挖掘;其二,尽管通过细节捕捉模块和特征注入器有效整合空间信息,但其在极端尺度变化场景下的适应性仍需进一步验证。
本研究提出的ChangeViT框架,成功利用朴素视觉Transformer(ViT)作为主干网络实现遥感影像中的大规模变化检测。通过细节捕捉模块与特征注入器的协同作用,实现了细粒度空间细节与高层语义表征的无缝融合。在四个基准数据集上的实验表明,ChangeViT全面超越现有分层模型。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号