综述：深度学习与传统方法在遥感图像分析中的应用

《Discover Imaging》：Deep learning and traditional methods for remote sensing image analysis

【字体：大中小】 时间：2026年07月04日 来源：Discover Imaging

编辑推荐：

　　遥感与环境监测通过集成先进的图像处理技术，特别是深度学习架构，已经取得了变革性进展。本系统性综述（systematic survey）审视了应用于遥感图像的处理方法的演变、现状及比较性能。本文建立了一个结构化分类体系，按方法（传统方法与深度学习方法）和学习范式

遥感与环境监测通过集成先进的图像处理技术，特别是深度学习架构，已经取得了变革性进展。本系统性综述（systematic survey）审视了应用于遥感图像的处理方法的演变、现状及比较性能。本文建立了一个结构化分类体系，按方法（传统方法与深度学习方法）和学习范式（监督、无监督和自监督）对技术进行分类。研究人员批判性地综合了先前工作，识别出关键优势，包括卷积神经网络（CNN）的主导地位——其在EuroSAT等基准数据集上实现了超过97%的准确率，以及局限性，如计算复杂度、数据需求和泛化挑战。实验比较部分详细分析了在标准基准（EuroSAT、BigEarthNet、UC Merced、Sen12MS）上评估的特定架构（ResNet、U-Net、VGG、视觉Transformer），并提供了全面的性能指标。研究人员确定了关键的研究空白，包括需要改进模型效率、更好地处理多光谱和高光谱数据、增强跨不同地理区域的泛化能力，以及开发可解释模型。本综述为遥感和环境监控领域的研究人员与从业者提供了全面资源，为未来研究方向和实际应用提供了可行的见解。与现有综述的关键区别在于采用了PRISMA（Preferred Reporting Items for Systematic Reviews and Meta-Analyses）合规的检索方法、涵盖从传统到扩散模型的统一分类法、以方法论为中心的比较表格、专门的高光谱和扩散模型覆盖，以及明确优先考虑研究空白。

1 引言

遥感技术已成为环境监测不可或缺的工具，为理解地球动态系统、追踪气候变化、管理自然资源和支持可持续发展倡议提供关键数据。Sentinel-2、Landsat-8和商业高分辨率平台等卫星任务产生了前所未有的多光谱和高光谱图像量，既带来了机遇也带来了自动化图像分析的挑战。从海量数据中提取有意义的信息从根本上依赖于能够处理遥感数据复杂性、规模和多样性的高级图像处理技术。过去十年，遥感图像处理领域经历了范式转变，从依赖手工特征的传统机器学习方法转向直接从数据中自动学习层次表示（hierarchical representations）的深度学习方法。卷积神经网络（CNN）及其变体在土地覆盖分类、目标检测、语义分割和变化检测等各种遥感任务中取得了显著成功。这些进展得益于大规模基准数据集的可用性、计算资源的增加以及网络架构和训练策略的算法创新。

尽管取得了显著进展，但仍存在许多挑战。遥感图像具有区别于自然图像的独特特征，包括可见光谱之外的多光谱和高光谱波段、变化的空间和时间分辨率、大气干扰、季节变化和地理多样性。这些因素使得为自然图像开发的计算机视觉技术的直接应用变得复杂，需要特定领域的适应。此外，标记训练数据有限、类别不平衡、大规模处理的计算效率以及模型可解释性等问题仍然构成重大障碍。

本综述通过系统分析遥感图像处理技术来解决这些挑战，确立了三个目标：首先，建立严格的文献选择和综合方法学；其次，开发结构化分类法，按方法和学习范式组织技术；第三，提供深度学习架构的详细实验比较。通过批判性综合先前工作，识别优势、局限性和研究空白，为未来研究和实际应用提供可行建议。

1.1 文献检索方法

进行了系统性文献检索，检索了Web of Science、Scopus和IEEE Xplore三个主要数据库。检索采用代表性字符串如“remote sensing AND deep learning AND image classification”等。检索限定在2015–2025年以涵盖现代深度学习时代。纳入标准要求同行评审期刊或会议论文报告在已建立基准数据集上的定量结果。排除标准剔除非英文论文、跨数据库重复记录以及缺乏实验评估的论文。选择过程遵循PRISMA式工作流程。

1.2 新颖性与现有综述的区别

本综述做出了五个关键贡献：第一，应用了系统的PRISMA合规文献检索方法；第二，开发了统一分类法，将传统、CNN-based、transformer-based、自监督（self-supervised）和扩散模型（diffusion-based）方法整合在单一框架内；第三，引入了三个新的以方法论为中心的比较表格；第四，专门涵盖了高光谱分类方法和扩散模型；第五，明确确定了五个优先研究空白并提供了可行的未来方向。

2 背景与理论基础

2.1 遥感基础

遥感指在不接触物理表面的情况下获取有关地球表面的信息，通常通过卫星或机载传感器捕获从表面反射或发射的电磁辐射。现代遥感系统在多个光谱波段运行，从可见光到热红外和微波频率，支持环境监测、农业、城市规划等应用。

2.1.1 光谱特征

遥感图像在光谱组成上与自然RGB图像有根本区别。多光谱传感器（如Sentinel-2）捕获多个离散光谱波段，包括可见光、近红外（NIR）和短波红外（SWIR）。高光谱传感器捕获数百个窄且连续的光谱波段，提供详细的材料识别光谱特征。

2.1.2 空间与时间分辨率

遥感系统在空间分辨率上差异很大，从亚米级商业卫星到中分辨率（10–30 m）系统如Sentinel-2和Landsat，再到粗分辨率（250 m–1 km）传感器。时间分辨率（卫星重访频率）从每天到每两周不等，支持变化检测和物候监测的时间序列分析。

2.1.3 数据特征与挑战

遥感图像呈现多种独特特征，包括大气效应、光照变化、季节变化、传感器特性和地理多样性。此外，多光谱和高光谱数据的高维度结合有限的标记训练样本，给机器学习方法带来挑战。

2.2 遥感中图像处理的演变

可分为三个主要范式：传统机器学习时代（2012年前）、深度学习革命（2012–2018）和现代深度学习时代（2018至今）。

2.3 遥感图像分析的关键挑战

包括标记数据有限、域偏移（domain shift）与泛化、计算复杂度、类别不平衡、多光谱和高光谱数据处理以及可解释性。

3 图像处理技术的结构化分类法

3.1 传统方法与深度学习方法

传统方法包括特征工程方法（如归一化植被指数（NDVI）、灰度共生矩阵（GLCM））和传统分类器（如支持向量机（SVM）、随机森林）。深度学习方法包括CNN（如AlexNet、VGG、ResNet、DenseNet、EfficientNet）、语义分割架构（如U-Net、DeepLab、SegNet）、注意力机制和Transformer（如视觉Transformer（ViT））以及混合和多模态架构。

3.1.3 高光谱图像分类

高光谱分类已成为关键研究方向，涵盖卷积、循环和基于注意力的方法。多项研究提出了形态学扩张CNN、对数卷积Transformer和轻量级混合架构，用于精度与推理速度的平衡。

3.2 监督与无监督学习范式

监督学习仍是主导，包括全监督分类和迁移学习（transfer learning）。半监督学习利用标记和未标记数据。自监督学习通过代理任务（pretext tasks）从未标记数据中学习表示。无监督学习包括聚类和降维。

3.3 基于任务的分类

包括图像分类、语义分割、目标检测、变化检测和 multilabel 分类。

3.4 遥感中的扩散模型

扩散模型（diffusion models）是基于去噪扩散概率模型（DDPM）的新兴范式，在图像去噪和超分辨率、语义分割（如WaterSegDiff）以及合成数据生成用于增强方面展现出潜力。

4 基准数据集与评估框架

4.1 主要基准数据集

包括EuroSAT（27,000张Sentinel-2图像，10个类别）、BigEarthNet（590,326个图像块，43个CORINE土地覆盖类别，多标签）、UC Merced（2,100张RGB航空图像，21个类别）、RESISC45（31,500张图像，45个场景类别）、Sen12MS（配准Sentinel-1 SAR和多光谱数据）、SAT-6、So2Sat和TreeSat AI等。

4.2 性能指标与评估协议

分类指标包括总体精度（OA）、F1分数、精确率和召回率、马修斯相关系数（MCC）和Cohen's Kappa。分割指标包括交并比（IoU）、平均IoU（mIoU）和像素精度。多标签指标包括平均精度均值（mAP）。计算效率指标包括模型参数、推理时间和训练时间。评估协议包括训练-测试划分、交叉验证和消融研究。

5 深度学习架构：已发表结果的比较分析

5.1 卷积神经网络（CNN）

VGG作为常见基线。定制CNN如LandNet利用多种波段组合实现97.815%准确率。混合CNN如ConvCat结合CatBoost达到97.44%准确率。

5.2 残差网络（ResNet）

ResNet-50在七个数据集上进行了全面基准测试，表明适当的预处理（调整到224×224，通道标准化）对迁移学习至关重要，在So2Sat上提高了32.28个百分点。

5.3 U-Net与语义分割架构

U-Net及其变体主导分割任务。DeepWaterMapV2和WatNet（340万参数）用于高山湖泊分割。空间-通道注意力UNet增强了水体分割。实时分割面临准确性-速度权衡。

5.4 视觉Transformer与注意力机制

注意力机制被集成到CNN中，多分支框架和平衡多任务注意力在EuroSAT上达到97.23%准确率。上下文感知架构利用时空元数据。

5.5 混合与多模态架构

多模态融合结合Sentinel-1和Sentinel-2。MoSAiC用于多标签对比学习。混合CNN-boosting和ACO-RCNN架构展示了性能提升。维度降低和零样本学习（如SenCLIP）也是重要方向。

6 架构趋势总结

关键趋势包括：ResNet-50作为强基线；U-Net主导分割；预处理的重要性；混合方法优于纯深度学习；效率日益重要；多模态潜力；注意力机制的有效性。

7 对先前工作的批判性综合

7.1 当前方法的优势

在基准数据集上高性能（>97%）；迁移学习有效；多光谱数据适应成功；架构创新（注意力、多分支、混合）；分割能力强；自监督学习兴起；标准化基准推动进展。

7.2 局限性、挑战与研究空白

包括泛化不足、效率-准确性权衡、多光谱利用不充分、标记数据稀缺、类别不平衡、缺乏可解释性、时间建模有限、基准偏差和复现性问题。

8 迁移学习与预训练策略

8.1 ImageNet预训练

适当预处理后，ImageNet预训练与自监督方法竞争，甚至更优。

8.2 自监督学习方法

包括对比学习（如MoCo-v2）、生成方法和时间一致性。MoSAiC和提示增强自监督学习是多标签和少样本的有效方法。

8.3 特定领域预训练

利用时空元数据的上下文感知预训练。SenCLIP将CLIP适应于遥感零样本映射。比较表明，适当ImageNet预训练仍是强基线。

9 应用领域与案例研究

9.1 土地利用与土地覆盖分类

EuroSAT、BigEarthNet和RESISC45上的广泛评估，混合方法表现优异。

9.2 水体分割

在高山环境中，WatNet和注意力UNet有效处理雪、阴影和大气影响。

9.3 农业监测

CNN用于农作物检测和河岸种植监测。

9.4 环境变化检测

利用多季节数据和时间元数据，但明确的变化检测研究有限。

10 讨论

10.1 研究结果综合

标准任务深度学习成熟；预处理和迁移学习的关键作用；架构多样性；光谱信息未充分挖掘；自监督学习兴起；效率-准确性权衡；基准驱动进展；基准性能与操作部署之间的差距。

10.2 对研究与实践的影响

预处理纪律比架构新颖性更重要；任务驱动的架构选择；轻量模型适合部署；自监督学习走向实用；需要扩展基准。

11 局限性、未来方向与结论

11.1 当前局限性

泛化不足、光谱利用不充分、缺乏时间建模、黑盒问题、基准偏差、复现性差。

11.2 未来研究方向

跨域泛化与域适应；高效架构与模型压缩；光谱信息利用；时间建模；自监督与半监督学习；可解释性；多模态融合；少样本与零样本学习；不确定性量化；基准多样性；领域知识整合；实际验证；伦理考虑。

11.3 结论

深度学习在定义明确的任务上已达到成熟，但泛化、光谱利用、时间建模和可解释性仍是关键挑战。适当预处理常比架构选择更重要。未来需在五个相互关联的方面取得进展，以实现稳健、高效和可解释的全球环境监测工具。

热点排行