双极化Sentinel-1 SAR图像数据集（DPS1-SAR）：面向深度学习去噪的多时相融合新方法

《IEEE Data Descriptions》：Descriptor: Dual-Pol Sentinel-1 SAR Imagery Dataset (DPS1-SAR)

【字体：大中小】 时间：2025年11月13日 来源：IEEE Data Descriptions

编辑推荐：

　　本文推荐研究人员针对合成孔径雷达（SAR）图像去噪中缺乏真实地面真值数据的问题，开展了双极化Sentinel-1 SAR图像数据集（DPS1-SAR）的构建研究。通过多时相融合（均值与中值操作）生成地面真值，提供了12,600张包含VV和VH极化的图像对。该数据集解决了传统合成斑点噪声方法的局限性，显著提升了深度学习模型在真实SAR图像去噪中的泛化能力，为遥感应用提供了高质量基准数据。

在遥感应用中，云层覆盖或其他恶劣环境条件常常成为光学传感器成像的障碍。合成孔径雷达（SAR）作为一种主动微波遥感技术，能够穿透云层，实现全天候、全天时对地观测，成为应对这一挑战的重要工具。然而，SAR图像在成像过程中会受到相干照射和复杂后向散射机制的影响，产生一种名为“斑点噪声”（speckle）的乘性噪声。这种噪声会严重降低图像质量，掩盖地物细节，给土地利用分类、变化检测、灾害监测等应用带来巨大困难。因此，如何有效抑制斑点噪声，即SAR图像去噪（despeckling），一直是遥感领域一个活跃且重要的研究方向。

传统的去噪方法往往依赖于基于伽马分布（Gamma distribution）的合成斑点噪声模型。在这种协议下，研究人员将光学图像视为无噪声的“地面真值”（ground truth），然后利用模型人为地添加斑点噪声，从而生成“噪声-真值”图像对，用于训练和评估去噪滤波器。然而，这种基于合成噪声的方法存在明显缺陷：使用这种方法训练出的模型或滤波器，在处理真实的SAR图像时，性能往往不尽如人意。根本原因在于，合成噪声难以完全模拟真实SAR成像系统中复杂的物理过程，导致模型泛化能力不足。

为了解决这一核心问题，研究人员开始转向利用真实的SAR图像本身来构建数据集。此前已有研究尝试构建包含多时相平均融合（multitemporal mean fusion）地面真值的数据集，但通常只包含单一极化（如VV），且图像来源的地理位置和时间相对单一，可能导致数据集多样性不足，影响训练模型的泛化性能。

在此背景下，由Ruben Dario Vasquez-Salazar、Ahmed Alejandro Cardona-Mesa、Juan Andres Jaramillo-Pineda、Valentina Cortes-Arango、Jean Pierre Diaz-Paz、Carlos M. Travieso-Gonzalez和Luis Gomez（IEEE高级会员）组成的研究团队，在《IEEE Data Descriptions》上发表了题为“Descriptor: Dual-Pol Sentinel-1 SAR Imagery Dataset (DPS1-SAR)”的数据描述文章。他们开发并发布了一个全新的、大规模的双极化Sentinel-1 SAR图像数据集——DPS1-SAR。该研究的核心目标是提供一个包含真实SAR斑点噪声和高质量地面真值的配对数据集，为训练监督式深度学习去噪模型奠定坚实基础，从而推动更鲁棒、更准确的SAR图像去噪技术的发展。

关键技术方法

为构建DPS1-SAR数据集，研究人员主要采用了以下关键技术：1) 利用Google Earth Engine (GEE)平台和Python脚本，设计了自动化图像搜索算法，随机选取全球范围内（纬度89°S至89°N，经度179°W至179°E）不同地点和日期（2017年1月后）的Sentinel-1A卫星影像；2) 设定筛选条件（时间窗口6个月，影像数量9-12景，VH极化均值大于-20 dB），确保数据质量和可用性；3) 对每个符合条件的影像集合，分别进行多时相均值融合（mean fusion）和新提出的多时相中值融合（median fusion）操作，生成对应的地面真值图像，其中中值融合能有效抑制极端像素值的影响；4) 最终数据集包含12,600张图像，以GeoTIFF格式存储，涵盖SAR VV、SAR VH、GT MEAN VV、GT MEAN VH、GT MEDIAN VV和GT MEDIAN VH六个文件夹。

研究结果

Collection Methods and Design

研究团队详细描述了数据集的构建方法。所选用的Sentinel-1影像为干涉宽幅（Interferometric Wide swath, IW）模式下的地距探测（Ground Range Detected, GRD）产品，空间分辨率为10米，包含VV和VH两种极化方式。GRD数据经过地距投影和多视处理，更适用于实际应用。通过随机选择地理位置和采集时间，确保了数据集的异质性（heterogeneity），这对于训练能够良好泛化的机器学习模型至关重要。

图1展示了自动化图像选择算法的流程图。该算法首先生成随机坐标和日期，然后基于此创建感兴趣区域（Region of Interest, ROI）和时间窗口，从GEE中获取Sentinel-1影像集合。经过条件筛选后，计算均值和中值融合图像，并裁剪至ROI范围，最终保存为512x512像素或更大尺寸的GeoTIFF文件。此过程重复进行，直至为每个类别收集到2100张图像。

图2展示了数据集中的四个不同地点的样例图像，从左至右分别显示了原始SAR VV图像、均值融合VV地面真值、中值融合VV地面真值、原始SAR VH图像、均值融合VH地面真值和中值融合VH地面真值。直观展示了多时相融合对斑点噪声的抑制效果。

Validation and Quality

研究人员使用多种公认的定量指标对数据集进行了质量验证，为后续使用该数据集训练的去噪模型提供了性能基准。这些指标包括：

•
等效视数（Equivalent Number of Looks, ENL）：用于衡量均匀区域内斑点噪声的抑制程度，ENL值越高，表明斑点噪声越少。计算公式为ENL = μ²/σ²，其中μ和σ分别为均匀区域的均值和标准差。
•
均方误差（Mean Squared Error, MSE）：计算原始SAR图像与地面真值图像之间的差异，值越小越好。
•
结构相似性指数（Structural Similarity Index, SSIM）：衡量两幅图像的结构相似性，值越接近1越好。
•
峰值信噪比（Peak Signal-to-Noise Ratio, PSNR）：评估图像重建质量，值越高越好。计算公式为PSNR = 10·log₁₀(MAX²/MSE)，其中MAX为图像最大像素值（此处为255）。

表II和表III分别展示了四个样本点在VV和VH极化下的测量结果。数据显示，原始SAR图像的ENL较低（VV平均12.76，VH平均3.23），表明存在明显的斑点噪声。经过多时相融合后，地面真值图像的ENL显著提升（VV均值融合约24，VH中值融合约6），MSE和SSIM也显示出原始图像与地面真值之间存在可衡量的差异，PSNR值在15至21之间。这些结果为评估未来基于此数据集训练的去噪模型提供了明确的优化目标：理想的去噪模型应能输出ENL和PSNR接近或优于地面真值、MSE趋近于零、SSIM接近1的图像。

Records and Storage

数据集以清晰的目录结构组织，六个文件夹分别存放原始SAR图像（VV和VH极化）以及通过均值和融合生成的对应地面真值图像。所有图像均以GeoTIFF格式存储，保留了地理参考信息，便于在GIS软件或Python、OpenCV、TensorFlow等工具中进行进一步处理和分析。

图3清晰地展示了数据集的文件夹结构，方便用户按需访问不同类别的图像。

Insights and Notes

文章讨论了数据集的优势、应用场景及局限性。DPS1-SAR数据集的主要优势在于其双极化、多时相、地理位置和时间随机性带来的多样性，这有助于训练出泛化能力更强的深度学习去噪模型。其应用范围广泛，包括但不限于：

1.
SAR图像去噪：为监督学习提供高质量的“噪声-真值”对。
2.
土地覆盖分类：利用双极化信息提高分类精度。
3.
变化检测：通过分析不同时间的图像监测环境变化。
4.
农业监测：评估作物长势和土壤湿度。
5.
灾害评估：在恶劣天气下进行洪涝等灾害监测。

同时，文章也指出了数据集的局限性，例如空间分辨率（10米）对某些精细应用可能不足，重返周期（12天）可能无法捕捉快速变化，以及大气条件（如强降水）可能影响图像质量。此外，通过多时相融合生成的地面真值并非绝对的“真实”值，仍可能包含残余噪声。

结论与意义

DPS1-SAR数据集的发布是SAR图像处理领域的一项重要贡献。该研究成功地构建了一个大规模、高质量、具有高度多样性的双极化Sentinel-1 SAR图像数据集，并首次引入了多时相中值融合作为生成地面真值的新方法。通过严格的定量验证，为评估去噪算法性能建立了可靠的基准。

该数据集的意义在于，它有效地解决了传统基于合成斑点噪声的训练方法性能不佳的痛点，为利用监督式深度学习技术进行SAR图像去噪提供了至关重要的真实数据基础。研究人员可以自由选择使用VV和/或VH极化作为输入，并选择均值或中值融合结果作为监督信号，从而灵活地针对特定应用优化模型。数据集的公开可用性（遵循知识共享署名4.0许可）将极大地促进遥感、机器学习和深度学习社区的协作研究与创新。

未来，该数据集可以通过集成更多卫星数据（如多光谱、高光谱或其他雷达波段）、增加图像数量以训练更复杂的生成式人工智能模型、以及探索更先进的地面真值生成技术等方式进行扩展和增强。总之，DPS1-SAR数据集为提升SAR图像质量、解锁其在各种遥感应用中的更大潜力奠定了坚实的数据基石。

热点排行