综述：《用于洪水淹没地图绘制的机器学习与深度学习方法的综合综述》阿比纳什·西尔瓦尔（Abinash Silwal）、阿尼尔·苏贝迪（Anil Subedi）、拉吉·塔姆拉卡尔（Rajee Tamrakar）、克希蒂吉·达哈尔（Kshitij Dahal）、德瓦西斯·达哈尔（Dewasis Dahal）、肯尼斯·奥克楚库·埃克佩特雷（Kenneth Okechukwu Ekpetere）以及穆罕默德·兹兰（Mohamed Zhran）

《Earth》：A Comprehensive Review of Machine Learning and Deep Learning Methods for Flood Inundation Mapping Abinash Silwal, Anil Subedi, Rajee Tamrakar, Kshitij Dahal, Dewasis Dahal, Kenneth Okechukwu Ekpetere and Mohamed Zhran

【字体：大中小】 时间：2026年03月10日 来源：Earth 3.4

编辑推荐：

　　摘要洪水淹没制图（FIM）在灾害风险管理、基础设施规划和气候适应中至关重要。传统的水动力模型，如水文工程中心的河流分析系统（HEC-RAS）和LISFLOOD-Floodplain（LISFLOOD-FP），能够提供物理上可解释的洪水模拟结果，但通常对数据和处理能力要求较高

　　摘要
洪水淹没制图（FIM）在灾害风险管理、基础设施规划和气候适应中至关重要。传统的水动力模型，如水文工程中心的河流分析系统（HEC-RAS）和LISFLOOD-Floodplain（LISFLOOD-FP），能够提供物理上可解释的洪水模拟结果，但通常对数据和处理能力要求较高，并且难以在不同区域进行扩展。近年来，机器学习（ML）和深度学习（DL）方法作为数据驱动的替代方案出现，它们利用遥感观测、数字高程模型（DEM）和水文气候数据集，实现了可扩展的近乎实时的洪水制图。本综述综合了基于ML的洪水淹没制图的最新进展，将这些方法分为传统的机器学习技术（如随机森林（RF）、支持向量机（SVM）、梯度提升（GB））、深度学习架构（如卷积神经网络（CNN）、U-Net、长短期记忆网络（LSTM），以及新兴的混合和物理信息驱动框架。我们评估了这些模型在洪水范围和深度估算任务中的性能，强调了它们各自的优点、局限性以及文献中报告的常见基准测试实践。综述还指出了与模型可解释性、数据偏差、迁移能力和监管接受度相关的主要挑战，并强调了可解释人工智能（XAI）、不确定性感知建模和物理信息驱动学习方面的最新进展，这些是基于实际应用的关键方向。通过统一术语、性能指标和方法比较，本综述为在日益增长的气候驱动洪水风险背景下，推进可靠、可扩展且与决策相关的洪水淹没制图提供了连贯的框架。

1. 引言
洪水是全球最频繁且最具破坏性的自然灾害之一，每年造成巨大的人员、经济和环境损失。最近的评估显示，由于气候变化、快速城市化和洪水易发地区的基础设施扩张的综合作用，洪水风险正在增加[1,2]。在许多地区，极端降水的增加加剧了洪水灾害，而土地利用变化和人口增长提高了暴露度和脆弱性，即使在轻度洪水事件中也会产生不成比例的影响[3,4,5,6]。因此，准确及时的洪水淹没制图（FIM）对于灾害准备、应急响应、基础设施规划和长期洪水风险管理至关重要。FIM将水文和水力过程转化为空间明确的信息，如洪水范围和深度，这些信息常用于损失估算、疏散规划和保险及监管框架[7,8]。传统上，洪水淹没图是使用基于物理的水动力模型（如HEC-RAS、MIKE FLOOD和LISFLOOD-FP）生成的。这些模型利用河道几何形状、地形高程、边界条件和气象强迫来模拟水流[8,9,10]。虽然基于过程的水动力模型提供了物理上可解释且与工程一致的模拟结果，但它们通常计算成本高、对数据要求严格，并且难以在不同区域或近实时应用中进行扩展。例如，高分辨率模拟需要详细的水深数据、校准数据以及大量的计算资源，而在数据稀少或快速变化的地区这些资源往往不可用[8,11,12]。因此，全球许多洪水易发地区仍未进行制图，或者依赖于过时的洪水灾害信息，限制了有效的风险减少和规划[13,14]。

地球观测数据的日益丰富为补充或增强传统洪水建模方法创造了新的机会。哨兵-1 SAR、哨兵-2多光谱图像、MODIS和商用高分辨率传感器等卫星平台提供了在各种地理和气候条件下对洪水事件的重复、全面观测[15,16]。特别是SAR图像因能够在无需日光和云层覆盖的情况下工作而在洪水检测中表现出色，这在极端天气事件中至关重要[17,18,19]。与此同时，机器学习（ML）和深度学习（DL）方法作为洪水淹没制图的工具也取得了进步。传统的ML方法，包括随机森林、梯度提升、逻辑回归和支持向量机，已广泛用于通过学习历史洪水发生与地形、土地覆盖、排水网络和降雨代理等解释变量之间的统计关系来进行洪水易发性和灾害制图[20,21,22]。这些模型提供了计算效率和灵活性，但依赖手工制作的特征，并且在处理高分辨率图像中的复杂空间模式时存在困难。最近，深度学习架构通过实现从卫星图像中自动提取特征和逐像素洪水分割，彻底改变了FIM。卷积神经网络（CNN），主要是U-Net类型的架构，在使用SAR和多光谱数据进行洪水范围制图时表现出强大性能[23,24,25]。循环神经网络和序列模型，如LSTM和GRU，也被用于捕获洪水预测和水位预测的时间动态[26,27]。最近，基于变换器的架构和视觉变换器在应对不同洪水事件和地区时也展示了有希望的泛化性能[28,29]。这些方法论的进步在第5节和第6节中进行了详细回顾和基准测试。

尽管取得了这些进展，基于ML的FIM在实际应用中的采用仍然有限。主要挑战包括模型可解释性、对训练数据质量的敏感性、跨区域的迁移能力有限，以及缺乏与基于物理的模型进行标准化的基准测试等[30,31,32]。越来越多的研究人员正在通过混合AI-水动力模型、物理信息驱动学习、可解释AI（XAI）和不确定性感知框架来解决这些问题，这些框架提供概率性的洪水预测而不是确定性输出[33,34,35]。基于此背景，本综述总结了最近在洪水淹没制图方面的机器学习和深度学习进展，重点关注最新的研究方法。文章系统地回顾了传统ML、深度学习、混合物理AI和不确定性感知方法在洪水范围和深度估算中的应用，并标准化了性能指标和基准测试实践，批判性地评估了模型的优点和局限性，探讨了实际应用和监管采纳的途径。

2. 洪水淹没制图的概念基础
与洪水相关的制图产品在水文学、洪水风险管理和灾害响应中处于核心地位。然而，虽然术语如洪水易发性、洪水灾害、洪水风险和洪水淹没制图在文献中经常被不一致或互换使用，但它们实际上指的是不同的概念和建模目标[8,36,37]。明确这些区别对于理解基于机器学习的洪水研究的最新进展以及确保不同建模方法之间的有意义比较是必要的。

2.1. 洪水作为时空分布的水文现象
洪水是一种时空分布的水文过程，由气象强迫、流域特征、河道水力条件、泛滥平原连通性以及人类对景观的改变相互作用产生[12,38]。洪水范围和深度不仅受降雨强度和持续时间的影响，还受地形高程、坡度、粗糙度、排水效率和泛滥平原蓄水能力的影响[9,39]。由于这些因素在空间和时间上存在差异，即使在同一流域或洪水事件内，洪水影响也是异质性的[7]。因此，洪水制图产品必须明确捕捉这种空间变异性，而不能仅仅依赖基于点的或整体的指标。这种空间复杂性决定了根据不同应用需求需要采用不同的洪水制图范式。

2.2. 洪水易发性制图
洪水易发性制图旨在基于固有的环境特征识别更有可能发生洪水的区域，而不依赖于特定的洪水情景[22,40]。这些地图通常使用地形属性、水文指数、土地覆盖、土壤特性和靠近排水网络的距离来表示洪水发生的相对可能性或倾向性[41,42]。洪水易发性模型通常使用基于历史洪水发生数据的统计或机器学习方法进行开发[20,43]。其输出表现为连续的易发性指数或分类等级，如低、中、高易发性。虽然这些产品对区域筛选和土地利用规划有用，但它们不代表洪水规模、淹没深度或特定事件的动态[36,37]。

2.3. 洪水灾害制图
洪水灾害制图定量评估在特定水文或水力情景（如设计风暴或规定的重现期）下的洪水物理特性。典型的灾害变量包括洪水范围、水深、流速，偶尔还包括洪水持续时间[44,45]。洪水灾害图通常使用基于物理的水动力模型生成，这些模型通过简化的水深方程来模拟河流通道和泛滥平原中的洪水传播[9,39,46]。然而，这些地图依赖于详细的地形数据、水力参数和校准信息，因此计算成本高，难以在大范围内扩展[8,47]。

2.4. 洪水风险制图
洪水风险制图结合洪水灾害信息与暴露度和脆弱性，以估计潜在后果，如经济损失、受影响人口或基础设施损害[7,21]。风险通常被概念化为灾害强度、资产或人口的存在及其受损易感性的组合[48,49]。洪水淹没图是洪水风险评估的关键输入，因为洪水范围或深度的误差会直接影响暴露度和损失估算[7,37]。尽管洪水风险制图对决策至关重要，但从分析角度来看，它与洪水淹没制图本身是不同的，后者关注的是洪水的物理表现而非其影响。

2.5. 洪水淹没制图
洪水淹没制图（FIM）具体指的是在给定水文或水力条件下淹没区域的空间界定和洪水深度的估算[50,51]。典型的输出包括二进制洪水范围图和连续的洪水深度表面。传统上，FIM是使用基于过程的水动力模型（如HEC-RAS、MIKE FLOOD和LISFLOOD-FP）生成的，这些模型明确使用河道几何形状、地形高程、粗糙度参数和边界条件来模拟水流[9,38]。除了完整的水动力模拟外，还广泛应用了基于地形简化的方法，如最近排水高度（HAND）模型，该方法通过数字高程模型生成每个地形单元与其最近排水通道之间的垂直距离，并通过水文条件和排水网络分析得到[52,53,54]。较低的HAND值通常对应于淹没易发性较高的区域，使得该方法在地区尺度泛滥平原界定上具有较高的计算效率。基于HAND的方法越来越多地与机器学习模型结合使用，以提高空间精度并纠正系统偏差[26,55]。最近，出现了基于数据驱动的方法，使用统计推断和遥感观测来估算淹没模式。无论采用何种方法，FIM的定义特征是其对淹没的明确空间表示，这使其与易发性、灾害和风险制图区分开来[49,56]。洪水淹没制图在应急响应、疏散规划、基础设施设计和气候适应策略中发挥着重要作用，因此提高其可扩展性和可靠性是关键的研究重点[8,47]。

2.6. 基于图像的洪水观测与洪水淹没制图
洪水研究中的一个重要区别是基于图像的洪水观测与预测性洪水淹没制图之间的区别。基于图像的方法使用卫星图像（特别是合成孔径雷达和光学传感器）在事件发生期间或之后不久检测淹没区域[15,17]。这些方法提供了洪水范围的观测快照，但受卫星重访频率、传感器可用性和获取条件的限制[38]。相比之下，洪水淹没制图旨在预测特定情景下的洪水范围和深度，包括未来的或假设的事件。虽然基于卫星的洪水图常被用作训练或验证数据，但它们本身不是淹没制图产品[16,50]。

2.7. 本综述的范围
虽然洪水易发性、灾害、风险和基于图像的洪水制图关注洪水评估的不同维度，但本综述主要关注洪水淹没制图。此处将淹没制图定义为在给定水文或水力条件下对洪水范围和洪水深度的估算。本节概述的概念区分有助于理解后续章节中回顾的机器学习和深度学习方法。图1总结了主要的洪水相关制图产品，区分了基于情景的灾害制图与空间明确的淹没制图以及易发性和风险制图。图1强调了从洪水现象派生的主要洪水分析方法之间的概念差异，包括洪水易发性、洪水灾害、洪水淹没制图、洪水风险和基于图像的洪水观测。

3. 机器学习和深度学习方法
机器学习（ML）和深度学习（DL）是人工智能中的数据驱动方法，它们直接从数据中学习输入特征与目标变量之间的关系，而不需要显式求解物理控制方程。在洪水淹没制图（FIM）中，这些方法作为传统水动力建模的补充或替代方案受到了越来越多的关注，尤其是在大规模、数据丰富或近实时应用中[15,22,47]。基于ML和DL的洪水制图方法通常遵循一个共同的工作流程，包括数据预处理、模型训练和后处理，以生成洪水范围或洪水深度产品。输入数据可能包括来自数字高程模型（DEM）的地形属性、土地利用和土地覆盖、水文指数、降雨代理以及遥感观测（如SAR或光学图像）。算法的选择决定了这些输入如何被转换为洪水易发性、洪水范围或洪水深度的预测。基于机器学习（ML）的洪水 inundation mapping（FIM）方法大致可以分为传统的机器学习方法和深度学习方法，同时人们对结合数据驱动学习与水动力约束的混合方法和物理信息框架越来越感兴趣。图2提供了用于洪水淹没映射的机器学习和深度学习方法的概念性分类。该图按方法论类别组织方法，而不是按照时间发展或预测性能。箭头表示概念关系和方法论扩展，而不是数据流或模型优劣。混合物理信息、不确定性感知和可解释的人工智能框架被展示为可以应用于传统机器学习和深度学习方法的交叉范式。

**3.1. 传统机器学习方法**
传统机器学习方法依赖于建立工程化输入特征与目标洪水变量之间关系的学习技术。与深度学习模型不同，这些方法通常需要在模型训练之前进行手动特征提取、预处理和变量选择，并且在相对较小的训练数据集中表现最佳[22,57]。如图2所示，传统机器学习方法形成了一类广泛的方法，它们依赖于工程化特征和统计学习范式，包括监督学习、无监督学习、集成学习和强化学习技术。用于FIM的传统ML方法可以大致分为以下学习范式：
- **监督学习**：使用标记的洪水和非洪水样本来训练模型，这是洪水研究中最广泛应用的范式。常见的监督算法包括决策树、随机森林（RF）、支持向量机（SVM）、逻辑回归、梯度提升模型如XGBoost和LightGBM以及浅层人工神经网络[20,21,43]。这些方法广泛用于洪水易发性分类，较少用于基于回归的洪水深度估计。
- **无监督学习**：旨在识别数据中的模式或结构，而不需要标记输出。诸如K均值聚类、主成分分析（PCA）和自组织映射（SOMs）等技术已被用于降维、特征提取和探索性洪水模式分析[58,59]。虽然直接用于洪水映射的情况较少，但无监督方法通常作为预处理或混合框架中的辅助工具使用。
- **集成学习**：是传统ML在洪水建模中的一个特别重要的子集。集成方法通过组合多个基础学习器来提高预测的鲁棒性并减少过拟合。随机森林汇总了基于自助样本训练的多个决策树的预测，而提升方法如AdaBoost、XGBoost和LightGBM通过强调错误分类的样本来迭代改进弱学习器[60,61]。由于集成模型能够处理非线性关系和异构的地理空间数据集，因此在洪水易感性和危险性映射中始终表现出很强的性能[14,45]。

尽管传统ML模型有效，但它们经常难以处理高维图像和复杂的空间依赖性，这推动了深度学习架构在洪水淹没映射中的使用日益增加。

**3.2. 深度学习方法**
深度学习通过使用具有多个隐藏层的神经网络扩展了传统机器学习，这些网络能够直接从原始输入数据中学习层次化的特征表示[62]。由于深度学习模型能够在没有手动特征工程的情况下处理空间图像、时间序列和大规模数据集，因此它们在FIM中变得特别有影响力。人工神经网络（ANNs）是DL模型的基础形式，由相互连接的神经元层组成，通过加权连接和非线性激活函数转换输入。浅层ANNs已被用于洪水预测和水位建模，而更深层次的架构提高了表示能力，但需要更大的训练数据集[63,64]。卷积神经网络（CNNs）是最广泛用于洪水淹没映射的DL架构。CNNs利用卷积滤波器从网格化数据中学习空间特征，使其特别适合卫星图像和基于栅格的洪水映射[62]。基于CNN的模型如U-Net和DeepLabV3+使用SAR和多光谱图像在像素级洪水范围分割方面表现出色[23,24,25]。循环神经网络（RNNs）及其变体，包括长短期记忆（LSTM）和门控循环单元（GRU），设计用于捕获序列数据中的时间依赖性。这些模型已被应用于洪水预测、河流水位预测和时间依赖的淹没建模，通过学习水文和气象时间序列中的时间模式[26,27]。最近，基于变换器的架构和视觉变换器作为CNN的强大替代方案出现在洪水映射中。通过利用自注意力机制，变换器可以建模长距离的空间依赖性，并提高对不同洪水事件和地理区域的泛化能力[28,29,65,66]。与依赖局部感受野且需要多个层次化层来捕获长距离空间关系的CNN不同，自注意力使每个图像块能够在单次操作中直接关注所有其他块[66]。这对于洪水映射特别有价值，因为在河流走廊中水文上相连的像素可能在空间上相距遥远但在功能上相关[28]。研究表明，与U-Net相比，视觉变换器在跨区域泛化方面表现更好[28]，而另一项研究则表明Swin Transformer通过层次化注意力机制有效地捕捉了局部洪水边界和流域尺度的模式[29]。

**3.3. 混合、物理信息、可解释和不确定性感知模型**
洪水淹没映射的最新进展已经超越了纯粹的数据驱动深度学习模型，转向了明确考虑物理一致性、可解释性和在不确定性下的决策制定的混合和不确定性感知框架。这些发展旨在克服传统深度学习方法的关键限制，特别是它们的黑盒行为和对训练数据质量的敏感性。

**3.3.1. 混合和物理信息机器学习模型**
混合模型将机器学习与基于物理的水动力建模相结合，以结合两种方法的优点。在洪水淹没映射中，这种集成通常是通过使用水动力原理约束神经网络预测或将ML模型与数值洪水模拟相结合来实现的。物理信息神经网络（PINNs）将质量守恒和动量守恒等控制方程直接纳入损失/目标函数中，即使训练数据有限也能确保预测的物理合理性[34,67]。如图2所示的混合和物理信息方法作为交叉范式，旨在结合ML和DL的预测灵活性以及来自水动力原理的物理一致性。多项研究表明，混合CNN–水动力框架可以在显著降低计算成本的同时，以与完整水动力模型相当的准确性再现洪水范围和深度[33,68]。这些方法提高了跨洪水情景的泛化能力，并增强了物理可解释性，使其特别适用于大规模和监管性的洪水映射应用。

**3.3.2. 不确定性感知的洪水淹没映射**
洪水风险管理本质上涉及由气象强迫、边界条件、地形表示和模型结构引起的不确定性。确定性洪水淹没图无法传达这种不确定性，限制了它们在风险决策中的实用性。为了解决这一限制，越来越多的不确定性感知ML框架被应用于洪水映射。贝叶斯神经网络、蒙特卡洛dropout和集成深度学习方法通过生成概率性的洪水范围或深度输出而不是单一的确定性预测，实现了预测不确定性的估计[28,69]。这些方法允许不确定性传播到下游影响和风险评估中，支持更稳健的应急规划和基础设施设计。最近的研究表明，不确定性感知模型在不同的水文条件下提供了更好的鲁棒性，并减少了对外推预测的过度自信[35]。

**3.3.3. 洪水映射中的可解释人工智能**
可解释的人工智能（XAI）方法被引入以提高基于ML的洪水淹没模型的透明度和可解释性。事后解释技术如SHapley Additive Explinations（SHAP）、Class Activation Mapping（CAM）和Gradient-weighted CAM（Grad-CAM）已被用于识别影响洪水预测的输入变量和空间区域[32,70,71]。如图2所强调的，可解释和不确定性感知模型并不代表独立的算法家族，而是互补的框架，增强了基于ML和DL的洪水模型的透明度、鲁棒性和决策相关性。在洪水映射应用中，XAI已被用来验证模型是否依赖于具有物理意义的特征，如河流接近度、低洼地形和表面粗糙度，而不是虚假的相关性。虽然可解释性技术本身并不提高预测准确性，但它们提供了诊断性见解，增强了模型的可信度和最终用户的信任度。可解释性和不确定性量化的操作意义在第7节中进一步讨论。

总之，用于洪水淹没映射的ML和DL方法不仅在算法复杂性上有所不同，它们在洪水建模工作流中的角色也不同。传统ML方法仍然适用于基于特征的易感性分析，而深度学习和混合模型越来越多地主导高分辨率淹没映射和水动力仿真。这些变化指导了后续章节中呈现的实证回顾和基准测试。图3通过提供一个非规范化的通用工作流程来综合这些方法论范式，突出常见的处理阶段及其概念关系。堆叠结构展示了常见的处理阶段，包括多源地理空间数据集成、预处理、模型训练、评估和后处理，而不是严格的或顺序化的流程。箭头表示阶段之间的信息流和交互，而不是操作的固定顺序，所示的数据源代表了文献中使用的典型示例，而不是详尽的集合。

**4. 回顾方法**
我们通过搜索Scopus数据库并使用以下查询进行了结构化的文献回顾：
TITLE-ABS-KEY (“flood inundation map” AND (“machine learning” OR “deep learning”)*
最初的搜索返回了154篇同行评审的文章。然后使用受PRISMA启发的研究选择过程对这些记录进行筛选，以确保其相关性和与本回顾目标的一致性。如图4所示，筛选包括多个过滤步骤。首先，将记录限制在2015年或之后发表的同行评审期刊文章，并限制在相关的主题领域，包括地球和行星科学、环境科学、计算机科学和工程学。应用这些标准后，剩下87篇独特的同行评审文章。

**5. 用于FIMs的ML方法概述**
随着机器学习（ML）和深度学习（DL）方法的整合，洪水淹没映射（FIM）经历了显著的变化。传统的水动力模型如HEC-RAS、LISFLOOD-FP和MIKE历来通过依赖基于物理的数值模拟构成了洪水风险评估的基础[14,20]。尽管这些模型在物理上非常逼真，但它们需要大量的数据、专家驱动的校准以及 substantial 的计算资源，这使得它们在资源消耗上很高，并且通常不适用于大规模或近乎实时的应用 [21,72]。随着高分辨率卫星图像、遥感产品和大规模地理空间数据集的日益普及，基于机器学习（ML）的方法作为高效的、数据驱动的替代方案应运而生，能够从包括地形、土地覆盖、降水、水文属性和历史洪水信息等多种输入中学习复杂的空间关系 [45,49,56]。与显式求解控制方程的传统物理模型不同，ML 方法依赖于统计学习来推断输入与洪水响应之间的映射关系，这通常可以实现更快的执行速度和可扩展的部署 [42,73,74]。2025 年发表的最新研究进一步表明，基于 ML 的洪水 inundation（FIM）方法正从纯粹的预测或分类应用转向操作增强和水动力仿真。特别是，ML 越来越被用于纠正大规模概念性洪水映射框架（如基于 HAND 的 FIM）中的偏差，并构建低计算成本的高保真水动力仿真替代模型 [75,76,77]。与此同时，深度学习的进步，尤其是视觉变换器、贝叶斯神经网络和集成架构的进步，使得基于 SAR 的洪水映射变得更加不确定性强，从而支持更加稳健和基于风险的决策 [28,35]。因此，应用于 FIM 的 ML 方法可以广泛分类为传统的机器学习模型（如基于树的集成方法（例如随机森林、XGBoost、LightGBM）、支持向量机、逻辑回归和浅层人工神经网络），以及使用卷积神经网络、U-Net 变体、循环架构、视觉变换器和混合物理信息或替代建模框架的深度学习方法 [23,28,29,33,78]。以下部分将深入讨论这些 ML 和 DL 模型及其在洪水淹没映射中的应用。表 1 总结了在洪水淹没映射中常用的机器学习和深度学习模型及其代表性研究。表 1. 按方法类型分类的洪水淹没映射中应用的 ML 和 DL 模型及其代表性研究。该表重点介绍了综述文献中报道的常用传统 ML、深度学习和混合建模方法。虽然基于 ML 的洪水淹没模型通常被认为计算效率高，但这种效率主要体现在训练后的快速推理速度上。训练深度学习架构，特别是基于变换器的和混合物理信息的模型，通常需要大量的计算资源和高性能 GPU 基础设施 [28,29,33,77]。相比之下，传统的基于集成的方法（如随机森林和 XGBoost）往往可以在标准计算平台上训练，计算负担相对较低 [14,74]。由于数据集大小、空间分辨率、模型复杂性和硬件配置的差异，报告的训练和推理时间差异很大，限制了直接进行定量比较。因此，表 2 提供了从代表性研究中得出的相对计算特性的定性综合 [14,23,25,28,29,33,74,76,77]。

5.1 传统的基于机器学习的 FIM
在传统的 ML 模型中，基于树的集成学习方法在洪水预测和易受灾性建模方面取得了显著的成功。随机森林（RF）因其处理高维地理空间数据的鲁棒性而被广泛使用。参考文献 [14] 使用 RF 为美国本土生成了全国范围的洪泛区地图，整合了水文和水力参数以解决 FEMA 洪水危险地图中的空白。同样，参考文献 [72] 在印度西孟加拉邦应用了 RF，发现它在预测洪水易发地区方面优于梯度提升算法。其他研究，如参考文献 [45,64]，进一步验证了 RF 在不同地理环境中的效率，其准确性优于决策树（DT）等简单分类模型。除了 RF 之外，极端梯度提升（XGBoost）和 LightGBM 也因其能够处理不平衡的洪水数据集同时提高预测性能而受到关注。参考文献 [21,74] 发现，在应用于大规模淹没数据集时，XGBoost 在洪水危险分类方面的准确率高于 RF。参考文献 [56] 表明，当 LightGBM 与地形和水文指数结合使用时，在城市洪水易受灾性映射中优于传统 ML 模型，这突显了其在建筑环境中适用性，因为那里的洪水动态受到人工排水和土地利用模式的强烈影响。最近，基于树的 ML 还被用于支持操作性洪水淹没框架；例如，参考文献 [75] 使用 RF 和 XGBoost 预测合成评级曲线调整因子，提高了大规模基于 HAND 的洪水淹没映射的性能。

除了集成学习之外，支持向量机（SVM）也被广泛用于二分类和多类别洪水易受灾性分类。参考文献 [49,83] 表明 SVM 在非线性洪水预测问题中表现良好，尤其是在与遥感数据结合使用时。然而，参考文献 [20] 指出 SVM 模型通常需要大量的核参数调整，这可能限制其在大面积应用中的可扩展性和灵活性。尽管存在这些限制，最近的操作研究继续在云计算环境中（如 Google Earth Engine）将 SVM 与 RF 一起用于快速基于 SAR 的洪水范围映射，特别是用于事件规模的淹没评估 [97]。同时，人工神经网络（ANN）也被用于浅层和混合 ML 架构中的洪水预测。参考文献 [64,84] 将 ANN 与水动力模型（例如 HEC-RAS）结合使用，以提高河流流域的淹没预测准确性，展示了 ANN 模拟复杂水文过程的能力。然而，参考文献 [31] 报告称，浅层 ANN 在应用于未见过的流域或洪水条件时经常难以进行空间泛化，这促使后续部分讨论了更深的架构和混合或替代建模方法。

5.2 基于深度学习的 FIM
深度学习（DL）已成为洪水淹没映射的一种变革性方法，因为它能够从卫星图像、遥感产品和水动力模型输出中自动提取特征。与依赖手工制作的预测因子的传统 ML 模型不同，DL 架构——特别是卷积神经网络（CNN）、循环神经网络（RNN）和基于变换器的模型——可以直接从原始或最小处理的输入中学习复杂的时空表示，从而提高洪水范围和深度估计任务的性能。最广泛用于 FIM 的 DL 架构之一是 U-Net，这是一种专为语义分割设计的全卷积网络。许多研究证明了其在洪水范围映射中的有效性。参考文献 [25] 在 2019 年美国中部洪水期间应用了改进的 U-Net 来划定洪水范围，与参考洪水地图高度一致。参考文献 [78] 使用 U-Net 在墨西哥塔巴斯科进行洪水检测，并用 Sentinel-1 SAR 观测结果进行了验证。参考文献 [90] 通过引入关注双流 Siamese U-Net 来进一步提高分割精度，该模型利用多时相 SAR 数据更好地捕捉洪水动态。除了 U-Net，其他深度卷积架构也被用于洪水分割。参考文献 [49] 应用了 DeepLabv3+，而参考文献 [93] 则探索了基于 ResNet 的 CNN 进行洪水映射，使用多光谱和 SAR 图像。这些模型提高了对常见遥感挑战（如云污染、混合像素和植被覆盖）的鲁棒性，从而减少了复杂洪泛环境中的错误分类。

循环神经网络（RNN），特别是长短期记忆（LSTM）模型，已被用于将时间依赖性纳入洪水预测。参考文献 [59] 将 LSTM 与 Heights Above Nearest Drainage（HAND）框架结合使用，以预测河流水位变化，改善了短期洪水预测并支持快速响应应用。最近，结合基于物理的水动力模拟和 DL 的混合和替代深度学习模型成为关键的研究方向。参考文献 [33] 将 CNN 与数值洪水模拟结合，预测日本多个地区的洪水深度图。参考文献 [26] 将 LSTM 网络与 HAND 结合使用，利用历史气象输入进行洪水淹没建模。参考文献 [87] 开发了一个基于 CNN 的框架，利用众包的淹没交通标志图像来估计城市洪水深度。扩展这一范式，最近的研究表明，DL 替代模型可以在保持高空间精度的同时，以显著的计算节省模拟或校正 2D 水动力模型的输出 [76,77]。同时，2025 年，特别是对于基于 SAR 的洪水映射和快速检测，基于不确定性的和基于变换器的 DL 框架变得尤为重要。参考文献 [28] 提出了 DeepSARFlood，这是一种基于视觉变换器的深度集成框架，可以生成近乎实时的洪水范围地图以及逐像素的不确定性估计，突显了变换器架构在大面积淹没映射中的操作潜力。同样，参考文献 [35] 开发了一种贝叶斯 U-Net，可以明确量化基于 SAR 的洪水淹没地图中的认知不确定性，为基于风险的决策提供概率预测，并改善对未见事件的泛化能力。基于Transformer 的趋势，参考文献 [29] 提出了一种新的基于 Swin Transformer 的模型，用于从多时相 SAR 图像对中检测洪水，利用并行特征提取和注意力机制实现对洪水范围的高精度、召回率和 F1 分数。

尽管基于 SAR 的洪水淹没映射在全天候洪水监测方面具有优势，但它受到散斑噪声和成像几何效应（如重叠和雷达阴影）的挑战，这些因素会降低高分辨率映射的分类准确性 [16]。传统的 SAR + ML 流程通常在特征提取和分类之前使用辐射度校准和通用的散斑减少技术，最近的研究表明，如 DeepLabv3+ 等机器学习方法可以从双极化 Sentinel-1 数据中准确划定洪水范围 [49]。深度学习框架可以通过学习表示和多时相训练进一步提高对 SAR 数据变化的鲁棒性，最近的基于变换器的模型在基于 SAR 的洪水检测中表现良好 [89,90]。城市重叠和阴影仍然是所有方法面临的挑战；研究人员已经开始整合多模态数据（如 SAR + 光学）和辅助输入（如建成区域层）来改善复杂环境中的划分 [23,93]。这些策略利用了 SAR 的全天候能力，同时减轻了传统 ML 和深度学习范式的解释挑战。为了提高模型透明度，可解释性 AI（XAI）技术也被整合到基于 DL 的 FIM 中。参考文献 [32] 将阶级激活映射（CAM）与 CNN 结合使用，以识别驱动洪水分类决策的影响图像区域，而 [23] 在一个带有焦点损失的 CNN 框架内融合了 Sentinel-1 SAR 和 Sentinel-2 多光谱图像，以改善不平衡数据集中的洪水检测。

6. 性能指标与基准测试
评估机器学习（ML）和深度学习（DL）模型在洪水淹没映射（FIM）中的性能对于确保其可靠性、鲁棒性和适用于实时洪水监测和长期洪水风险评估至关重要。鉴于洪水过程的多样性、空间尺度、数据来源和建模目标的不同，模型性能通常使用基于分类的指标（用于洪水易受灾性和范围映射）、基于回归的指标（用于洪水深度估计）以及量化预测和观测淹没模式之间对应关系的空间一致性度量来进行评估。本节提供了洪水映射研究中使用的性能指标的全面概述，随后是对广泛使用的 ML 和 DL 方法的比较基准测试。重点在于理解模型性能如何随数据集、空间分辨率和建模范式的变化而变化，以及近期不确定性和基于变换器的架构进步如何重塑 FIM 的评估实践。用于评估洪水淹没模型的性能指标

基于机器学习的洪水淹没建模通常解决两个主要任务：
- 对易受洪水影响区域和不受洪水影响区域进行分类，包括洪水易感性和洪水范围划定；
- 基于回归的洪水深度估计，以连续的水位值表示。

评估这些任务需要标准化的量化性能指标，这些指标能够捕捉预测准确性、空间一致性、泛化能力以及模型不确定性。以下小节总结了最常用的评估指标及其在洪水制图应用中的相关性。

6.1.1. 基于分类的洪水易感性和范围评估
洪水易感性和范围分类模型主要旨在区分被淹没区域和未被淹没区域。这些模型的有效性通常使用标准分类指标进行评估，包括：
- 总体准确性（OA）：衡量正确分类为洪水区域和非洪水区域的像素相对于整个数据集的比例。
- 精确度（阳性预测值，PPV）：评估预测为被淹没的区域中实际被淹没的区域百分比，从而减少误报。
- 召回率（敏感性，真阳性率，TPR）：捕捉实际被淹没区域中被正确识别的比例。
- F1分数：提供精确度和召回率的平衡度量，确保模型性能不会被误报或漏报所主导。
- 重叠率（IoU）：评估预测洪水范围与实际洪水范围之间的重叠程度，提供空间一致性的度量。
- 临界成功指数（CSI）：衡量正确预测的被淹没像素与观察到的和预测的被淹没像素的并集之间的比率，在操作性洪水淹没制图中广泛使用，以平衡漏检和误报。

6.1.2. 基于回归的洪水深度评估
洪水深度估计模型预测连续的水位值，并使用基于回归的性能指标进行评估，包括：
- 均方根误差（RMSE）：衡量预测洪水深度与观测值之间的偏差，对较大误差进行了惩罚。
- 平均绝对误差（MAE）：捕捉预测洪水深度与实际洪水深度之间的平均绝对差异。
- 决定系数（R2）：量化模型解释的洪水深度方差的比例。
- 均方误差（MSE）：与RMSE类似，但对较大误差更敏感。

多项研究表明这些指标在不同机器学习范式中的有效性。例如，参考文献[25]评估了基于U-Net、ResNet50和Otsu阈值分割的SAR洪水制图方法，得到的IoU为0.756，F1分数为0.859，总体准确率为92.4%，其中U-Net的性能显著优于传统分类器。参考文献[84]引入了一种混合神经网络-群体灰狼（NN-SGW）模型用于城市洪水易感性制图，在训练期间的AUC-ROC为96.3%，在验证期间为88.2%，优于随机森林和决策树模型。最近的研究越来越多地结合了操作相关的指标。参考文献[28]使用IoU、F1分数和CSI评估了基于Transformer的SAR洪水制图框架，并报告了在不同洪水事件中的稳定性能，同时提供了对决策支持有用的不确定性估计。第6.2节提供了基于分类的模型性能的比较总结。

6.2. 深度学习模型的比较基准测试
机器学习和深度学习模型在洪水淹没制图中的性能受到数据集特征、空间分辨率、洪水类型、模型架构和评估方法的强烈影响。虽然某些模型在洪水易感性分类方面表现出色，但其他模型在像素级洪水范围划定或洪水深度估计方面表现出更好的性能。因此，没有一种单一的建模方法在所有洪水制图任务或空间尺度上都具有普遍的最佳性能。本节基于基于分类和基于回归的指标，对代表性的机器学习和深度学习方法进行了比较基准测试。报告的性能范围反映了各个研究中发布的值；然而，由于空间分辨率、参考数据质量、洪水动态和验证协议的差异，直接的跨研究比较仍然具有挑战性。准确度指标会随着空间分辨率的不同而显著变化，因为较粗的网格倾向于降低边界复杂性并可能提高分类准确性。验证方法也显著影响报告的性能：空间交叉验证通常比随机保留分割产生更低的准确性，因为空间自相关性；而时间验证则在前所未有的洪水条件下常常揭示出较低的泛化能力。为了实现更有意义的跨研究比较，未来的洪水制图研究应采用标准化的报告实践。至少，研究应明确报告：（1）输入数据和预测洪水地图的空间分辨率，（2）验证策略（随机分割、k折交叉验证、空间或时间交叉验证），（3）类别平衡指标（被淹没区域与未淹没区域的百分比），以及（4）评估是在独立洪水事件上还是训练数据的空间子集上进行。像Sen1Floods11 [23]这样的基准数据集提供了部分标准化，尽管分辨率和洪水类型仍存在差异。因此，模型比较应优先考虑使用可比空间规模和验证协议的研究，同时认识到在多样化的操作环境中实现完美标准化是不现实的。考虑到这些因素，以下部分总结了文献中报告的代表性模型性能趋势。

6.2.1. 洪水范围映射模型的比较
这里使用回顾文献中报告的分类和分割性能，比较了机器学习和深度学习方法在洪水范围划分（像素级或区域级淹没映射）方面的性能。由于研究在传感器类型（例如SAR、光学或融合图像）、洪水事件特征、预处理工作流程、参考标签和评估协议方面存在差异，因此报告的值应被视为特定于研究的，而不是直接的直接对比。尽管洪水易感性和洪水范围映射都依赖于基于分类的评估指标，但本小节特别关注洪水范围划分（像素/区域级淹没映射）。因此，洪水易感性/危险/风险评估研究（例如[20,74,81]）未包含在表3中。

表3. 代表性机器学习和深度学习模型在洪水范围映射（像素/区域级淹没划分）方面的比较性能。由于传感器（SAR/光学/融合图像）、洪水事件、空间分辨率、类别定义、参考标签和评估协议的差异，报告的值在不同研究之间无法直接比较。“-”表示该指标在引用的研究中未报告。在回顾的方法中，基于深度学习的分割模型——特别是U-Net变体及其扩展——在从SAR和多传感器图像中划分洪水范围方面始终表现出强大的性能。例如，参考文献[25]使用基于U-Net的框架进行SAR洪水范围提取，报告了0.756的IoU、0.859的F1分数和92.4%的OA。同样，参考文献[90]提出了一个注意力的双流Siamese U-Net用于双时相Sentinel-1洪水检测，报告了0.70的IoU和0.83的F1分数，与单时相基线的IoU相比提高了约6%。基于Transformer的架构也成为SAR洪水范围映射的强劲替代方案。在参考文献[28]中，DeepSARFlood框架报告了0.7153–0.7226的IoU值和0.7816–0.7891的F1分数（包括最佳模型和集成结果），以及支持操作性洪水响应的强精度/召回率和不确定性感知输出。同样，参考文献[29]使用基于Siamese Swin-Transformer的SAR洪水检测模型报告了95.7%的F1分数，表明其在双时相洪水分类方面的强大性能。

可解释的和不确定性感知的深度学习模型除了准确性之外还提供了额外的操作价值。例如，参考文献[32]报告了Sentinel-1的IoU值为0.5902，Sentinel-2的IoU值为0.6984，相应的F1分数分别为0.7327和0.7894，同时还结合了类别激活映射以提高可解释性。类似地，参考文献[35]提出了一个用于洪水淹没制图的贝叶斯深度学习框架，报告了95.87%的OA和80.13%的F1分数，展示了概率输出和不确定性量化对于风险知情洪水制图的价值。传统的机器学习方法（如RF）作为基线方法仍然有用，特别是在结构化的洪水分类工作流程中[14]，但与现代的语义分割和基于Transformer的模型相比，它们通常表现较差。总体而言，回顾的文献表明，从传统的分类器向基于CNN、Siamese、Transformer和不确定性感知的深度学习模型进行了明显转变，越来越强调鲁棒性、可解释性和操作可用性。

6.2.2. 洪水深度估计模型的比较
洪水深度估计的目标是预测连续的水位值，因此使用基于回归的性能指标进行评估。在回顾的文献中，最常报告的指标是均方根误差（RMSE）和决定系数（R2），还有一些额外的指标，如平均绝对误差（MAE）、Nash–Sutcliffe效率（NSE）、Pearson相关性和计算速度，这取决于目标是在网格化的水深、采样位置的淹没高度还是基于图像的深度估计。尽管一些洪水易感性、危险性和洪水风险研究报告了统计性能指标，但由于它们没有以米为单位估计连续的洪水深度，因此这些指标未包含在本小节中。表4包括了明确预测洪水深度/淹没高度或包含专用洪水深度估计模块的代表性研究。

表4. 代表性的机器学习和深度学习方法在洪水深度估计方面的比较亮点。报告的值是特定于研究的，由于洪水类型、建模目标、输入数据、空间分辨率和水动力设置以及验证协议的差异，这些值在不同研究之间无法直接比较。“-”表示该指标在引用的研究中未报告。传统的机器学习和混合替代方法在快速洪水深度估计方面表现出强劲潜力，特别是在使用水动力模型输出或特定事件洪水数据集进行训练时。例如，参考文献[21]提出了一个多模型集成框架，具有独立的洪水范围和洪水深度模块，并报告了强大的洪水深度回归性能，历史测试事件的R2 = 0.99，MAE = 0.54 m，RMSE = 0.71 m，同时对于未预见事件也保持了良好的性能（R2 = 0.96，MAE = 0.54 m，RMSE = 1.14 m）。这些结果突显了集成回归器在平衡预测准确性和泛化方面的潜力。在必须平衡物理真实性和计算效率的情况下，混合ML-水动力方法尤为重要。在参考文献[33]中，使用基于CNN的框架结合数值模拟来预测洪水淹没深度，实现了0.202–0.220 m的RMSE值，展示了物理指导的训练数据在改进深度预测方面的价值。同样，参考文献[68]报告了ANN在淹没高度预测方面的强大性能（RMSE = 0.25 m，R2 = 0.85，NSE = 0.86），支持在可校准的水动力或空间训练数据可用时使用机器学习进行快速深度相关预测。最近的一个特别强大的方向是2D洪水深度场的机器学习替代建模。参考文献[77]开发了一个用于二维洪水深度预测的通用机器学习框架，使用水动力模拟的训练数据，并通过基于聚集的流域回归设计实现了强大的性能，测试R2 = 0.83，测试RMSE = 0.21 m（最佳试验），在未见过见的流域中的验证显示R2值为67–92%，NSE值高达0.920。除了预测性能外，参考文献[77]还展示了显著的计算优势，相对于传统的HEC-RAS模拟，速度提高了约225倍，这对于早期预警和操作应用非常相关。相关的替代预测工作也支持混合淹没图预测系统在突发洪水情景中的操作价值。例如，参考文献[101]报告了突发洪水淹没预测的提前时间依赖性替代性能，对于长达约120分钟的提前时间，深度/地图预测技能可接受（包括R2 > 0.8和RMSE < 0.25 m），同时与参考水力模型相比大幅减少了运行时间。新兴的基于视觉的方法为洪水深度估计提供了补充途径，特别是对于快速情况感知。参考文献[100]引入了FloodDepth-GPT，这是一个大型多模态模型，用于从现场洪水照片中进行基于图像的洪水深度估计，报告了0.8879的Pearson相关性和低深度误差（大约RMSE = 0.30 m和MAE ≈ 0.25–0.27 m，取决于评估设置）。虽然这些基于图像的方法不能直接与网格化的淹没深度替代模型相比，但它们作为快速现场信息深度估计工具显示出强大潜力。概率替代方法也代表了一个重要的新兴方向，因为它们可以提供不确定性感知的淹没预测，而不仅仅是确定性的深度预测[34]。这篇文献在讨论替代模型在洪水预报和下游影响或风险评估中的应用时特别具有相关性。总的来说，综述的文献表明，目前混合机器学习（ML）-水动力模型以及利用机器学习对水深场进行近似的方法为洪水深度估计提供了最可靠的途径，而基于视觉的多模态模型和概率替代方法则为快速深度评估和具有不确定性意识的运营响应提供了有前景的补充工具。

6.2.3 模型基准测试总结
表5提供了针对不同地理区域、洪水类型和数据源应用的机器学习和深度学习（DL）模型进行洪水淹没映射的全面基准测试总结。验证数据集包括历史洪水数据库、SAR和光学卫星图像、国家洪水档案以及合成水动力模拟，展示了基于机器学习的方法的适应性[14,28,78]。

表5. 不同地理区域、洪水类型和数据源应用的机器学习和深度学习模型进行洪水淹没映射的全面基准测试总结。验证数据集包括历史洪水数据库、卫星图像、国家洪水档案以及合成水动力模拟。报告的性能指标反映了特定研究的评估框架。在所回顾的研究中，有几个一致的结论：基于卷积神经网络（CNN）的架构（例如U-Net、DeepLabV3+）在洪水范围映射方面始终优于传统的机器学习模型，尤其是在像素级分割任务中[23,25,32]。混合CNN-水动力和考虑物理特性的机器学习模型在洪水深度估计方面达到了最高的准确率，提供了更好的泛化能力和物理一致性[33,68]。基于Transformer和贝叶斯的模型与CNN相似的准确率，同时增强了鲁棒性和不确定性量化能力，使其非常适合于运营和风险意识的洪水映射应用[28,29,35]。

总体而言，基准测试结果表明，从传统的机器学习方法向深度学习和混合模型的发展是一个明显的趋势，最近的进展更加强调鲁棒性、不确定性意识和运营适用性，而不仅仅是准确率本身。

7. 讨论
将机器学习（ML）和深度学习（DL）技术整合到洪水淹没映射（FIM）中代表了洪水风险评估的一个重大范式转变。传统上，基于物理的水动力模型如HEC-RAS、MIKE FLOOD和LISFLOOD-FP一直是洪水风险映射的基础。这些模型利用地形、通道几何形状、边界条件以及气象输入明确模拟水文和水力过程，具有很强的物理可解释性和监管机构的认可度。然而，它们的高计算成本、庞大的数据需求以及有限的可扩展性对大面积覆盖和近乎实时的应用构成了重大挑战[14,20]。

相比之下，基于机器学习的洪水映射框架利用卫星图像、数字高程模型（DEMs）、气候再分析产品和历史洪水观测数据，以高度自动化和计算高效的方式生成数据驱动的洪水地图。正如第5节和第6节所展示的，基于CNN的分割技术、混合AI-水动力建模以及基于Transformer的架构的最新进展显著提高了洪水范围的划定和洪水深度的估计能力。尽管有这些进步，基于机器学习的FIM仍然面临可解释性、数据依赖性、泛化能力和监管机构接受度等关键挑战。本节讨论了基于机器学习和基于过程的洪水模型之间的主要权衡，指出了实际应用中的障碍，并概述了未来研究的方向以弥合现有差距。图6通过突出物理可解释性和数据驱动灵活性之间的权衡，说明了向混合型、可解释的和具有不确定性意识的AI模型过渡的必要性。该图并不代表时间顺序的发展，而是沿着AI整合和可解释性轴线对基于AI的洪水淹没映射范式进行了概念性定位。

图6. 洪水淹没映射方法的概念框架，展示了物理可解释性和数据驱动灵活性之间的权衡。向上移动代表基于过程的水动力模型典型的逐渐增加的物理可解释性，而向下移动代表逐渐增加的数据驱动自动化和可扩展性。混合型、可解释的和具有不确定性意识的模型在保持深度学习灵活性的同时，结合了物理约束以提高鲁棒性和决策相关性。

7.1 机器学习与FEMA基于过程模型的协同与权衡
FEMA的洪水映射工作流程主要依赖于基于过程的水动力模型，如HEC-RAS和MIKE FLOOD，这些模型根据地形、粗糙度、降雨-径流过程和渠道水力学等物理意义上的参数来模拟水流[14,20]。虽然这些模型提供了透明且可辩护的洪水风险估计，但它们消耗资源且耗时，限制了其空间覆盖范围和更新频率。因此，详细的FEMA洪泛区地图目前仅覆盖了美国一小部分易发生洪水的区域，许多地区仍然未被绘制或过时[45,49]。

基于机器学习的FIM提供了一种补充方法，而不是直接替代。它们的主要优势包括：
- 可扩展性和自动化：机器学习模型可以在历史洪水范围上进行训练，然后应用于预测大范围空间内的未来洪水事件，而无需手动调整[14,72]。
- 多源数据的整合：与严重依赖水力输入的传统FEMA工作流程不同，机器学习模型可以整合卫星图像、土地利用变化、地形衍生数据，甚至是众包或社会经济信息[23,87]。
- 快速洪水评估：传统模型需要大量的预处理、校准和验证，而机器学习模型，尤其是像U-Net和CNN这样的深度学习架构，可以从SAR和光学卫星图像生成近乎实时的洪水地图[25,90]。
- 解决数据缺口：在缺乏详细水力模型的地区，基于机器学习的洪水映射可以通过从历史洪水事件和地形特征中学习模式来填补这一空白[21]。

然而，这些优势也伴随着权衡。机器学习模型通常缺乏明确的物理约束，使得其预测更难以解释和验证。与直接模拟水流过程的水动力模型不同，机器学习模型依赖于统计模式识别，这可能会降低决策者和监管机构的信任[31,83]。此外，机器学习模型的性能对训练数据的质量非常敏感；历史洪水记录的偏差、传感器噪声或标签不完整都可能显著影响预测结果[18,44]。

7.2 基于机器学习的洪水淹没映射的挑战
尽管最近的研究报告了显著的性能提升，但仍有一些挑战阻碍了基于机器学习的FIM的运营应用。这些挑战包括模型的透明度、数据质量和可用性、泛化问题以及监管机构的怀疑态度。

7.2.1 黑箱问题和模型透明度
基于机器学习的洪水淹没映射的一个根本限制是许多高性能模型的可解释性有限，特别是深度学习架构。与基于物理的水动力模型不同，后者明确表示了如流量连续性和动量守恒等控制过程，而深度神经网络通过高维特征学习来推断洪水模式，使得很难追踪特定输入如何影响预测结果。这种“黑箱”性质对运营应用构成了重大障碍，尤其是对于需要透明、可审计决策框架的监管机构和应急管理机构而言。

为了解决这一限制，最近的研究将可解释AI（XAI）技术引入了洪水映射工作流程。诸如类激活映射（CAM）、梯度加权CAM（Grad-CAM）和Shapley加性解释（SHAP）等方法已被用来识别影响洪水预测的图像区域、地形特征或水文变量[25,32,93]。这些方法提供了有价值的诊断洞察，使研究人员能够验证模型是否依赖于物理意义上的线索，如河流邻近性、低洼地形或表面粗糙度。然而，尽管有这些进步，当前的XAI在洪水映射中的应用仍然主要是事后解释性的，而不是本质上可解释的。在大多数情况下，可解释性并不能直接提高预测准确性或泛化能力，也不能确保物理一致性。因此，仅靠XAI不足以完全弥合数据驱动的洪水模型和基于过程的水动力框架之间的差距[31,83]。

未来的进展需要超越事后解释，转向结合物理约束的混合和基于物理的机器学习架构。这样的方法为建立对基于机器学习的洪水映射系统的信任以及促进其在监管和运营环境中的接受提供了更有希望的途径。

7.2.2 数据可用性、偏见和泛化问题
机器学习模型在洪水淹没映射中的有效性在很大程度上取决于数据的可用性和质量。虽然Sentinel-1、Sentinel-2和MODIS的遥感数据集提供了全球范围的洪水观测数据，但历史洪水记录的缺失和标记训练数据的一致性不足可能会影响模型的可靠性。一个关键问题是数据偏见，特别是在洪水易发性映射中。许多机器学习模型是在历史洪水事件上训练的，这意味着它们的预测可能会低估最近几十年未发生洪水的地区的洪水风险。这种偏见在经历气候变化引发的洪水的地区尤为严重，因为历史记录可能无法捕捉到新出现的洪水风险。

另一个挑战是空间和时间上的泛化能力。在一个地区训练的机器学习模型在应用于具有不同水文条件的新地理位置时往往表现不佳。已经探索了迁移学习技术，如领域适应和跨区域模型微调，以改善泛化能力，但还需要进一步的研究来确保机器学习模型在不同水文条件下的鲁棒性。

7.2.3 监管障碍和缺乏标准化
基于机器学习的洪水模型缺乏标准化仍然是其在政策驱动的洪水风险管理中采用的主要障碍。传统的洪水风险地图，如FEMA和欧洲洪水指令生成的地图，遵循成熟的水文和水力建模指南。相比之下，基于机器学习的洪水映射缺乏通用的验证协议，导致监管机构的怀疑。为了解决这些问题，研究人员必须致力于开发符合现有监管要求的标准化机器学习基准测试框架。可解释AI（XAI）、混合建模和针对水动力模拟的稳健性能验证等倡议有助于弥合这一差距。AI研究人员、水文学家和监管机构之间的合作对于建立对基于机器学习的洪水模型的信任至关重要。

7.3 基于机器学习的洪水映射的未来方向
尽管存在这些挑战，基于机器学习的洪水淹没映射的未来前景依然充满希望，有几个新兴的研究方向为改进提供了途径。

7.3.1 混合物理信息机器学习模型
将机器学习与基于物理的水动力模拟相结合的混合模型是洪水淹没映射中最有前途的研究方向之一。物理信息神经网络（PINNs）、替代水动力模型和CNN-水动力混合框架使用物理定律或数值模型输出来约束机器学习预测，提高了预测准确性和可解释性[33,34]。这些模型在计算效率和物理真实性之间提供了平衡的折中，使其特别适用于大规模和监管性的洪水映射应用。

7.3.2 可解释和具有不确定性意识的洪水模型
未来的基于机器学习的洪水淹没模型必须超越确定性预测，朝着可解释和具有不确定性意识的框架发展。洪水风险管理本质上涉及在不确定性下的决策，而仅提供洪水范围或深度点估计的模型对风险知情规划的支持有限。最近的研究展示了贝叶斯深度学习、集成架构和概率洪水映射框架在量化预测不确定性和模型鲁棒性方面的价值[28,35]。这些方法使得不确定性能够传播到下游影响、脆弱性和影响评估中，这对于应急响应优先级划分和基础设施规划至关重要。将XAI与具有不确定性意识的建模相结合是洪水映射研究的一个关键前沿。虽然XAI技术有助于解释模型为何在特定位置预测洪水，但不确定性量化提供了模型对这些预测信心的洞察。结合这两种能力对于构建值得信赖的、适用于运营部署和监管审查的洪水模型至关重要。

7.3.3 卫星-AI融合用于近乎实时的洪水映射
卫星遥感和基于AI的图像分析的进步继续扩展了近乎实时洪水监测的潜力。高分辨率合成孔径雷达（SAR）数据的日益可用，结合基于深度学习的分割模型，使得在云层覆盖和不良天气条件下能够快速划定洪水范围[23,25]。多传感器数据融合方法，整合了SAR、光学图像和DEM派生特征，在不同的环境和土地覆盖条件下表现出更好的鲁棒性。未来的研究应优先考虑可扩展的、基于云的机器学习流程，这些流程能够整合多源卫星数据与具有可解释性和不确定性意识的建模框架，支持区域到国家范围内的及时和透明的洪水响应。

7.3.4 新兴的多模态和AI驱动扩展
计算机视觉和人工智能领域的进步开始影响洪水监测研究，并可能为洪水淹没映射提供互补的能力。大型语言模型（LLMs）已被用于合成灾害相关文档和分析城市聚集区的洪水韧性框架[120]，尽管它们直接应用于空间洪水范围预测的能力仍然有限。基于双分支变压器的跨视图图像融合方法，结合了梯度感知特征对齐，显示出整合地面级洪水图像与卫星观测数据的潜力[121]，而结合SAR、光学和辅助数据的多模态学习框架在云层遮挡和数据稀疏条件下表现出更好的鲁棒性[23,122]。诸如Segment Anything Model这样的基础模型正在被研究用于遥感分割任务[123]，而视觉变换器架构在捕捉与流域尺度洪水过程相关的长距离空间依赖性方面显示出潜力[28,29,65]。虽然这些方法在洪水淹没制图研究中仍处于发展阶段，但它们代表了提高数据整合、模型泛化能力和运营决策支持的有希望的方向。

8. 结论
本综述总结了机器学习（ML）和深度学习（DL）在洪水淹没制图（FIM）领域的最新进展，强调了它们在补充甚至某些情况下增强传统基于物理的流体动力学模型方面的日益重要的作用。尽管像HEC-RAS、MIKE FLOOD和LISFLOOD-FP这样的成熟模型由于其物理可解释性而在法规制定的洪泛区制图中仍然至关重要，但其计算需求和有限的可扩展性限制了它们在大范围和近乎实时的洪水评估中的应用。

在回顾的文献中，深度学习架构在从遥感数据中划分洪水范围方面始终表现出优越的性能。结合了机器学习和流体动力学的混合模型以及具备物理意识的模型成为最可靠的洪水深度估算方法，与纯粹的数据驱动方法相比，它们提供了更好的泛化能力和物理一致性。最近基于变换器和贝叶斯框架的进展进一步增强了这些能力，提高了模型的鲁棒性，并实现了不确定性量化，这对于运营决策和基于风险的洪水管理至关重要。

尽管取得了这些进展，仍有一些挑战限制了基于机器学习的洪水淹没制图的应用。这些挑战包括高性能模型的可解释性有限、对高质量和具有代表性的训练数据的依赖性、在空间和时间上的泛化困难，以及缺乏符合监管要求的标准化验证协议。要解决这些限制，需要从单纯追求准确性的评估转向优先考虑可解释性、不确定性意识和物理合理性的框架。

展望未来，洪水淹没制图的未来在于将可扩展的机器学习流程与基于物理的约束条件、多源遥感数据以及透明的不确定性表征相结合。这样的混合型和可解释的人工智能框架为弥合数据驱动创新与运营洪水风险管理之间的差距提供了途径。随着气候变化持续加剧全球洪水灾害，开发可信、可解释且适用于决策制定的洪水制图系统对于提高灾害准备能力、早期预警能力和长期气候韧性至关重要。

热点排行