洪水是全球最频繁和最具破坏性的自然灾害之一,对社会经济活动和环境稳定性产生了重大影响(Adhikari等人,2010年;Tellman等人,2021年)。准确的洪水易发性预测对于最小化这些影响至关重要,特别是在印度-中国半岛(ICP)等易发生洪水的地区,那里复杂的地形和季风主导的气候经常导致大规模的淹没事件(Ahamed和Bolten,2017年;Chen等人,2020年;Hu等人,2018年;Liu等人,2018年)。
传统上,SWAT、HEC-HMS、VIC、MIKESHE等水文模型被广泛用于洪水预报和水资源管理(de Paula Netto等人,2024年;Devia等人,2015年;Hosseiny,2021年)。尽管这些模型基于物理原理,但由于计算需求高和需要大量的输入数据,它们在实时和大规模应用中往往不切实际。此外,这些模型通常在流域尺度上进行校准,并依赖于详细的物理参数,包括土地利用、土壤特性和气象强迫。然而,在数据稀少或水文复杂的地区,如ICP,它们的可转移性和性能往往受到限制(Han和Morrison,2022年;Kumar等人,2023年;Noor等人,2022年;Pham等人,2021年)。经典的统计模型——包括Gumbel分布、广义极值(GEV)分布、Log-Pearson Type III分布(水资源委员会,1975年)以及与广义Pareto分布(GPD)相结合的峰超过阈值(POT)方法(Coles等人,2001年)——使用长期年最大值或超越序列来估计不同重现期的洪水强度。模型校准特别耗时,且通常是特定于地点的,这限制了模型在不同地区或时间尺度上的可转移性。许多这些模型假设流域内的空间同质性,并依赖于离散的测量观测数据,使得它们在捕捉多样景观下的洪水动态的空间变异性方面效果较差(Devia等人,2015年)。
此外,有限的观测记录和数据不连续性给可靠的洪水估计带来了重大挑战,特别是在没有测量站或数据稀缺的地区(Boni等人,2007年;Gao等人,2017年)。气候-地表相互作用的复杂性不断增加,加上观测数据的稀少和不规则,进一步限制了模型捕捉多年洪水动态的能力。最近在洪水预测方面的进展转向了数据驱动的方法,这些方法可以从多源观测中学习空间-时间模式(Sanjay Shekar & Vinay,2021年)。
相比之下,遥感和机器学习(ML)的最新进展为数据有限的条件下的大规模洪水建模提供了有希望的替代方案。基于卫星的传感器,包括光学传感器(Donchyts等人,2016年;Ji等人,2015年;Pekel等人,2016年)、雷达(Amitrano等人,2018年;Yan等人,2015年)和微波仪器,已被广泛用于检测洪水范围并随时间生成淹没地图。特别是MODIS数据,提供了250米分辨率的一致且频繁的覆盖,有利于多年、大范围的洪水易发性分析(Kuenzer等人,2015年)。
ML模型越来越多地应用于洪水预测(Fu等人,2022年;Razavi-Termeh等人,2025年;Shen,2018年),通常使用海拔、坡度和土地利用等静态指标来预测易发生洪水的区域(Abijith等人,2025年;Antzoulatos等人,2022年;Assouline等人,2024年;Avand等人,2021年;Bui等人,2019年;Tien Bui等人,2020年)。在ML技术中,基于树的模型——如随机森林(RF)和极端梯度提升(XGBoost)——在地理空间任务中表现出强大的预测性能和可扩展性(Bui等人,2019年;Huang等人,2019年;Kaiser等人,2022年;Lyu和Yin,2023a;Tien Bui等人,2020年)。尽管取得了这些进展,大多数基于ML的洪水研究仍然依赖于稀少且基于事件的洪水数据集——这些数据集要么是从历史记录中手动整理的,要么是从灾害数据库中提取的(Kumar等人,2023年)。这些数据集缺乏进行稳健洪水风险评估所需的空间和时间连续性,限制了模型的泛化能力和在变化的气候和土地条件下评估洪水风险的能力。
此外,大多数现有的洪水检测产品依赖于单次事件的影像或历史洪水发生的稀疏记录,这些记录本质上缺乏分析多年时空淹没模式所需的时间连续性,限制了它们在区域规划和风险评估中的实用性,特别是在数据稀缺的地区(Bou等人,2024年;Misra等人,2025年)。
为了解决这些限制,本研究将21年的卫星观测数据与可解释的ML相结合,开发了一个可扩展的洪水易发性预测框架,该框架结合了多年淹没暴露分析、土地-气候相互作用和可解释的水文建模。通过应用自适应Otsu阈值算法并进行时间聚合,使用2003年至2023年共21年的250米分辨率MODIS影像数据,生成了一个一致且高质量的日平均淹没发生率(DAIOR)数据集,该数据集捕捉了ICP在不同环境条件下的洪水发生的空间和时间动态。这里,淹没发生指的是每个像素处卫星观测到的地表水存在的经验频率,不应被解释为水文洪水频率或重现期估计。与之前使用孤立洪水事件的工作不同,这种方法捕捉到了空间和时间上连续的洪水模式,为训练提供了更稳健的基础。然后使用这个连续的数据集来训练ML模型,该模型结合了十二个气候-地表预测因子,包括NDVI、土地利用、地形属性、温度和地下水异常(GWA)等。
本研究的新颖之处在于四个关键贡献。首先,我们构建了一个基于每日MODIS影像的区域一致淹没数据集,为洪水风险建模提供了新的数据资源。其次,我们设计了一个可解释的机器学习框架,该框架在基于水文信息的建模方法中明确结合了地表和气候变量。第三,我们应用了可解释的人工智能(AI)技术——如SHAP值和偏依赖图——来识别洪水易感性的最有力预测因子,并提供了对模型行为的透明洞察。最后,我们将XGBoost模型与其他常用的ML和深度学习(DL)算法进行了比较,包括RF、支持向量回归(SVR)和Light Gradient Boosting Machine(LightGBM)、长短期记忆网络(LSTM)以及卷积神经网络(CNN),以评估它们的性能和稳健性。
通过整合卫星观测、气候-地表耦合和可解释的机器学习,这项工作旨在通过关注观测到的淹没发生而不是基于重现期的洪水频率指标来推进基于卫星的洪水易感性制图,同时在数据有限的条件下提高可解释性。