通过Pixel-Wise T检验在Sentinel-1影像上进行开放获取的战斗损伤检测
《Remote Sensing of Environment》:Open access battle damage detection via Pixel-Wise T-Test on Sentinel-1 imagery
【字体:
大
中
小
】
时间:2025年10月08日
来源:Remote Sensing of Environment 11.4
编辑推荐:
冲突损毁评估中,像素级T检验(PWTT)方法通过公开SAR数据实现轻量化、可解释的损伤检测,AUC达0.87,优于深度学习模型,适用于大范围实时监测并生成互动仪表板。
在近期爆发的加沙和乌克兰冲突中,准确评估建筑物损坏情况对于公众讨论、人权监测和人道主义援助至关重要。由于冲突损害评估本身具有争议性,这些估算必须具备可重复性、可解释性,并且基于开放获取的数据。本文介绍了一种新的建筑物损坏检测方法——像素级T检验(Pixel-Wise T-Test,简称PWTT),该方法满足上述要求。PWTT利用自由获取的合成孔径雷达(Synthetic Aperture Radar,SAR)图像和统计变化检测相结合,能够在广阔区域内定期生成准确的冲突损害评估结果。通过一个包含超过200万标注建筑物足迹的原始数据集,该方法对全球多个城市(包括巴勒斯坦、乌克兰、苏丹、叙利亚和伊拉克)进行了验证,证明其在建筑物级别的准确率(AUC=0.87)可以与依赖深度学习和高分辨率光学图像的最新方法相媲美。PWTT的流程是开源的,并且完全部署在Google Earth Engine环境中,从而可以创建交互式的“战斗损害仪表盘”,在接近实时的情况下提供加沙和乌克兰的区域建筑物损坏评估。
### 1. 引言
准确且及时地识别战争造成的建筑物损坏对于当地平民、援助机构和公众舆论至关重要。近年来,深度学习和高分辨率光学卫星图像已被广泛应用于自动识别损坏建筑物(Shen et al., 2022; Xia et al., 2023; Zheng et al., 2021; Mueller et al., 2021; Lee et al., 2020)。然而,这些模型在泛化能力和计算成本方面存在显著问题。因此,像联合国卫星中心(UNOSAT)这样的援助机构,仍然主要依靠人工结合卫星图像进行建筑物损坏识别。本文提出了一种新的算法——像素级T检验(PWTT),该方法具有轻量级、无监督学习的特点,仅依赖于自由获取的合成孔径雷达(SAR)图像。这种方法解决了深度学习在光学图像上的成本、覆盖一致性、可解释性和领域偏移等固有问题。
近期在加沙和乌克兰发生的严重冲突表明,公众对开放获取的冲突损害评估有显著需求。PWTT已被《经济学人》杂志用于评估乌克兰冲突期间多个时间点的建筑物损坏情况(Economist, 2023)。然而,目前尚无研究对大规模的SAR图像冲突损害检测进行建筑物级别的准确率评估。因此,本文的第二项重要贡献是创建并发布了一个新的数据集,该数据集结合了UNOSAT的人工建筑物损坏标注和跨越30个城市、覆盖五个不同冲突区域的2277345个建筑物足迹,用于在不同冲突背景下对PWTT算法进行全面验证。结果表明,PWTT能够识别冲突造成的建筑物损坏,其准确率与依赖昂贵高分辨率光学图像的深度学习方法相当,达到了AUC=0.87的水平。
### 2. 方法
本文提出了一种基于SAR图像的像素级T检验方法,该方法能够有效检测冲突造成的建筑物损坏。SAR图像具有独立于天气和光照的特性,且具有较高的重复频率(ESA, 2024)。SAR传感器向地球发射微波脉冲并测量返回信号(后向散射),从而可以分析地表纹理特征。该方法在SAR图像中进行幅度变化检测,能够捕捉到建筑物损坏所引起的后向散射幅度的显著变化,而不仅仅是基于双时点的常规变化检测方法(Canty, 2019)。
#### 2.1 数据
本文主要使用了来自欧洲航天局(ESA)Sentinel-1卫星的SAR图像。Sentinel-1是一个双极化SAR系统,发射C波段雷达微波,并记录垂直和水平反射极化(ESA, 2024)。分析中使用了两种极化:单极化(垂直发射/垂直接收,即VV)和双频交叉极化(垂直发射/水平接收,即VH)。这些极化对不同类型的散射机制具有差异化的敏感性,如垂直建筑物的双散射或废墟的粗糙表面散射(Meyer, 2019; Canada, 2008)。已有研究表明,VV和VH极化的组合能够提高建筑物损坏检测的准确性(Karimzadeh and Mastuoka, 2017)。
Sentinel-1图像以10米的空间分辨率获取,并且在Google Earth Engine中进行处理(ESA, 2024)。该图像集在接近实时更新后,会进行正射校正、热噪声去除和辐射校正,以确保其质量(ESA, 2024)。在分析前,会使用Lee滤波器进行斑点滤波,以减少尖锐强度变化,同时保留边缘特征(Lee et al., 1994)。由于本研究中的城市区域相对平坦,正射校正过程中的地形校正已经足够。然而,如果分析涉及山区,建议使用辐射地形平坦化(Radiometric Terrain Flattening,RTF)进行预处理。RTF过程的Python实现可作为PWTT API中的可选预处理步骤。
建筑物足迹数据来源于微软的建筑物足迹数据集,该数据集基于全球高分辨率卫星图像使用深度学习生成了超过10亿个建筑物足迹(Microsoft, 2024)。对于中东和欧洲,建筑物的检测精度为95%,召回率为85%。手动审查发现,这些足迹总体质量较高,但部分极小的建筑物足迹(面积小于50平方米)被认为是误检,如汽车、卡车、花园小屋或错误的几何形状,这些被去除。有关全球、多源开放获取建筑物足迹的可用性和可靠性讨论,详见附录A中的图A.2。
建筑物足迹被标记为损坏,如果它与UNOSAT的损坏标注点相交,否则标记为未损坏。UNOSAT的标注基于高分辨率光学卫星图像生成(Unosat, 2022c; Unosat, 2022a; Unosat, 2016; Unosat, 2017b; Unosat, 2022b; Unosat, 2022d; Unosat, 2022e; Unosat, 2022f; Unosat, 2022g; Unosat, 2024)。这些标注是研究战争损害时最常用的数据来源,通常被认为是高质量的(Mueller et al., 2021; Kahraman et al., 2016; Witmer, 2015; Boloorani et al., 2021; Braun, 2018; Huang et al., 2023)。然而,由于标注图像为正视角,部分建筑物侧面的损害可能被忽略。
#### 2.2 像素级T检验
本文提出的像素级T检验方法能够有效识别冲突造成的建筑物损坏。该方法利用SAR图像的后向散射幅度,能够保持图像的原生分辨率(10米/像素),并且在与相干变化检测相比时,对小的变化不那么敏感。通过在较长时间范围内整合预战和战后像素标准差,该方法能够更好地区分建筑物损坏与一般人为变化和季节性变化,这些通常会影响基于双时点的算法(Canty, 2019)。
在计算T检验统计量时,首先选择一个预战参考期(τ=0)和一个战后推断期(τ=1),并使用一个截止日期(如某个区域冲突的开始)。附录A中的图A.7展示了参考期和推断期的选择,以及各城市每周的冲突次数。在所有情况下,推断期开始于用于验证的UNOSAT损坏评估日期,并在此之后持续一个月。对于加沙和所有乌克兰城市,参考期覆盖冲突开始前一年(2024-10-10和2022-02-24)。对于摩苏尔、拉卡和阿勒颇,参考期覆盖了Sentinel-1图像开始可用的第一年(2014-10-10至2015-10-10)。
预战参考期覆盖一年(约120幅图像),以捕捉目标材料的季节性变化(如雪的存在)。推断期使用一个月的图像(约10幅),以减少推断期间的样本数量,并降低推断期间损坏发生的可能性。在快速响应场景中,可以使用第一个战后Sentinel-1图像计算像素级Z得分,通过从战前均值中减去战后图像并除以战前标准差。这些结果在表4中报告。
#### 2.3 损坏分类
在生成损坏概率栅格后,通过计算每个建筑物足迹内的像素均值,并设置一个二元损坏分类的阈值,进行建筑物级别的推断。PWTT的一个关键优势是损坏概率栅格包含非任意的值。可以根据所需的统计显著性选择阈值T(如T>2.7,当n=40时在99%置信水平下)。这种方法将战后期间发生的统计显著变化视为损坏。T值还具有跨领域的泛化能力,因为T检验是相对变化的度量,并考虑了不同地理区域的后向散射值的绝对差异。T值的阈值也可以通过使用精度-召回曲线进行经验选择,以适应特定地理区域的分类需求。
### 3. 结果
#### 3.1 建筑物级别损坏
建筑物级别的准确率评估如下。对于一个建筑物足迹F,UNOSAT损坏标注D,以及PWTT的阈值T,一个建筑物被标记为损坏,如果它与损坏标注相交(F∩D≠空集),并且其建筑物足迹内的平均T值超过损坏阈值(T(F) > T)。因此,TP、TN、FP和FN的定义如下:
- **TP(真正例)**:F∩D≠空集,并且T(F) > T。
- **TN(真反例)**:F∩D=空集,并且T(F) ≤ T。
- **FP(假正例)**:F∩D=空集,并且T(F) > T。
- **FN(假反例)**:F∩D≠空集,并且T(F) ≤ T。
图3展示了在摩苏尔进行的准确性评估过程。左侧的损坏概率栅格预测了旧城在底格里斯河南岸的严重损坏。右侧的图示将损坏预测与标注的建筑物足迹结合,展示了真正例(红色)、真反例(绿色)、假正例(橙色)和假反例(紫色)。损坏概率在每个类别中以百分比形式表示。PWTT不仅能够准确识别旧城的损坏,还能识别西边的孤立损坏区域。这一过程在所有30个城市中进行,并在表2中报告了建筑物级别的准确率指标。
#### 3.2 时间泛化与深度学习比较
之前的子节表明,PWTT在地理泛化方面表现优异,能够达到与深度学习方法在类似任务中的性能水平。然而,在长期战争背景下,时间泛化同样重要,这与自然灾害中的单一时间点冲击不同。本节系统地比较了PWTT在时间上的泛化能力,以及与最先进的深度学习模型ChangeOS的性能。
在加沙的验证数据集中,PWTT使用了1321038个标注的建筑物足迹,覆盖了2023年10月至2024年5月之间的六个不同时间点。所有PWTT结果都使用了相同的参考期,覆盖了2023年10月10日之前的一年,以及从UNOSAT评估日期开始的一个月的推断期。在这些时间点上,PWTT的F1得分平均为64.7,比ChangeOS的F1得分高出15%。AUC值在所有时间点上保持稳定,表明PWTT在时间上的判别能力一致。
#### 3.3 损坏溢出
尽管PWTT能够有效区分损坏和未损坏的建筑物,但其精度通常低于召回率,尤其是在大多数城市中。这表明假正例比假反例更常见,即使在选择最佳的损坏分类阈值后。假正例分析表明,大多数假正例是由实际损坏的溢出效应驱动的。如果建筑物足迹与损坏的建筑物在10米范围内,这些足迹可能被重新分类为潜在损坏,从而将建筑物损坏检测的F1得分从64%提高到68%。
图7展示了在乌克兰的Rubizhne市进行的预测与实际损坏对比。大多数假正例(橙色)与真正例(红色)在空间上接近。所有城市中,假正例与最近的损坏建筑物之间的中位距离仅为28米,而真正例与最近的正例之间的距离则超过15倍,即434米。这种差异在统计学上非常显著(p < 0.0001)。图A.8展示了假正例和真正例与最近损坏建筑物的距离分布。
假正例的出现可能有多种原因。由于约三分之一的假正例与损坏建筑物距离小于一个Sentinel-1像素,因此溢出效应可能是由于精确区分损坏和未损坏建筑物的分辨率限制。此外,损坏事件周围可能有实际变化,如废墟散落或火灾影响附近的植被。同时,与被毁建筑物相邻的建筑物可能实际上遭受了横向损害,但未被人工标注所捕捉,而SAR传感器能够检测到这些变化。因此,PWTT能够正确识别城市中的损坏,而大多数假正例是由于对实际损坏区域的空间范围略微高估所致。这比模型错误地预测整个城市为损坏的威胁要小得多。当某个城市的损坏标注可用时,可以使用梯度提升方法更精确地界定损坏区域,从而大大减少假正例,如表4所示。
#### 3.4 损坏强度
虽然识别单个损坏建筑物是实践者的重要输出,但区域损坏评估也很常见。UNOSAT进行快速损坏评估时,会在城市中绘制500米×500米的网格,并标记网格单元为损坏,如果其中至少有一个损坏的建筑物。PWTT在这一任务中表现更好,使用单个T值阈值(T > 3.2)对所有城市进行二元分类,得到F1准确率为0.65,总体AUC为0.84。附录A中的表A.9报告了城市级别的准确率统计。
然而,使用如此大的网格单元可能导致同一网格单元内出现多个损坏的建筑物。虽然全球样本中55%的网格单元没有损坏的建筑物,但某些单元内可能包含多达823个损坏的建筑物。图8展示了加沙中预测损坏强度(建筑物足迹内T值的总和)与实际损坏强度(网格单元内损坏建筑物的总面积)之间的空间关系。两者之间存在强相关性,特别是在加沙北部和汗尤尼斯,预测损坏强度最高的网格单元也是实际损坏强度最高的。
### 4. 讨论
当前最先进的建筑损坏检测方法依赖于深度学习和高分辨率光学卫星图像。第3.2节展示了PWTT在加沙六次不同时间点的建筑损坏检测任务中,F1得分比最先进的深度学习模型ChangeOS高出15%。除了产生更准确的结果外,PWTT还解决了深度学习和高分辨率光学卫星图像带来的许多问题,具体如下:
#### 4.1 数据可用性
使用深度学习模型进行高分辨率卫星图像推断的成本可能超过1300万美元,仅用于一次乌克兰的图像采集(AAAS, 2024)。即使能够获取这些图像,云层覆盖也是一个重大挑战,因为乌克兰许多地区的年云覆盖率超过60%(NASA, 2024)。此外,战区的其他大气遮挡,如由火灾产生的积云和由废墟产生的尘埃,进一步复杂化了光学图像的使用。PWTT使用的SAR图像不仅开放获取,还能穿透云层,保证了高重复率下的持续覆盖。
#### 4.2 泛化能力
虽然神经网络在相同国家内也难以泛化,且在某些情况下无法处理不规则形状的建筑物,如图6所示。相比之下,PWTT通过整合每个像素一年的历史图像进行无监督的损坏检测,具有良好的泛化能力。使用覆盖30个城市和五个不同国家的验证数据集,PWTT实现了整体AUC为0.87和F1得分为65%(T > 3.2)。除了地理泛化,PWTT还保持了时间泛化能力,AUC值在加沙的六个分析时间点上保持一致。它还能检测500米网格单元内的损坏,且可以生成准确的损坏强度估计:网格单元内的T值均值解释了该单元内损坏建筑物数量变化的75%。
#### 4.3 分辨率
PWTT保持了Sentinel-1的原生空间分辨率(10米/像素),这比高分辨率图像(如50厘米/像素)低。这使得稀疏损坏的识别和密集城市环境中损坏的精确界定变得困难。然而,雷达图像中的主要损坏检测方法——相干变化检测(CCD)——需要下采样到40米/像素,使得PWTT的分辨率高出16倍,如图1所示。如第3.3节所述,10米/像素的分辨率已经会导致溢出假正例的问题。PWTT与CCD的比较结果见表A.10。使用InSAR时,F1准确率平均降低9%,这可能与溢出效应有关。
### 5. 结论
在近期的加沙和乌克兰等高破坏性战争背景下,生成有关冲突损坏建筑物的公共信息变得尤为重要。本文开发了像素级T检验(PWTT),这是一种新的、基于开放数据的战争损坏估计算法,具有准确性、轻量级和泛化能力。PWTT解决了深度学习方法在建筑损坏检测中的许多问题,如成本、覆盖一致性以及领域偏移,并在加沙的损坏检测任务中超越了最先进的深度学习模型。
这些特性使得创建交互式“战斗损害仪表盘”成为可能,这些仪表盘利用Google Earth Engine的云计算平台,对乌克兰和加沙进行多时相、广域的建筑损坏评估。这些仪表盘具有三个关键特征:首先,它们能够在战争期间的任何时间点对整个国家进行损坏评估;其次,损坏估计与高分辨率战前人口数据结合,以估算现在被摧毁区域的居住人口;第三,它们整合了其他开放数据,如地理位置标记的社会媒体影像,以进一步验证。鉴于战争损坏估计的争议性,使用开放源代码和数据确保了透明度、可解释性和可重复性。更多关于仪表盘的细节可在附录A中找到。
“战斗损害仪表盘”的框架高度可扩展,支持根据利益相关者的需要进行修改。通过轻微调整,可以设置警报以在不同地区检测战斗的扩散,并在附近平民中提供早期预警。在战后重建场景中,可以轻松生成按行政区域划分的损坏水平摘要,以指导现场调查和最终的重建工作。
虽然最大化预测准确性是自然目标,但研究人员还必须考虑战争损坏评估的伦理和最终目标,这并不是为了完全自动化该过程。任何模型都可能出错,而在战后重建的高风险决策中,必须始终有人工参与。在需要更精确损坏估计的情况下,PWTT可以用于“提示和引导”人工评估或现场调查。在战争监测中,保持人工参与也是重要的,以防止可能的伦理挑战,如军事情报机构评估炮击或轰炸的成功与否,这可以通过PWTT实现。然而,这些机构通常可以访问更高分辨率的图像和更低延迟的方法,因此不太可能依赖PWTT,后者是为广域监测优化的。研究人员必须仔细考虑公开发布建筑损坏数据的潜在益处和危害。
最后,本文提出的方法仍存在一些局限性。尽管PWTT的准确性通过超过90万个不同气候区域的建筑足迹进行评估,但需要进一步在亚洲和拉丁美洲进行测试。另一个改进领域是通过测试不同的变化检测算法来提高准确性,尤其是贝叶斯和非参数方法具有潜力。创建一个包含超过50万个标注建筑足迹的开放获取战争损坏检测基准数据集,为未来的研究提供了共同的参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号