利用21年的淹没数据及机器学习方法对印度支那半岛的洪水易发性进行预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Hydrology》：Flood susceptibility prediction in the Indo-China Peninsula using 21?years of inundation occurrence data and machine learning

【字体：大中小】 时间：2026年02月22日 来源：Journal of Hydrology 6.3

编辑推荐：

　　洪水脆弱性预测研究整合21年MODIS遥感数据，开发XGBoost可解释机器学习框架，通过自适应Otsu算法生成连续淹没发生率数据集，揭示NDVI、土地利用、温度主导预测，并验证温度非线性阈值效应，为跨境河流区提供高精度动态风险评估工具。

黄刚娅|Alex Hay-Man Ng|周倩倩|朱庆高子|杜泽远|葛琳琳

广东工业大学土木与交通工程学院，中国广州外环西路100号，510006

摘要

准确的洪水易发性预测对于识别高风险区域、支持灾害准备以及减轻社会经济损失至关重要。然而，传统的水文模型依赖于复杂的物理参数和大量数据，尽管它们已被用于小规模洪水事件的模拟，但在具有强烈空间异质性的大面积洪水预测方面仍存在显著的研究空白。这些挑战在数据稀缺和水文复杂的地区尤为突出，例如印度-中国半岛，那里的历史洪水记录稀少且洪水事件表现出强烈的空间不连续性。为了解决这些问题，本研究开发了一个可扩展、可解释的机器学习框架，用于跨境河流流域的洪水易发性预测，该框架将遥感数据与环境变量相结合，并基于水循环理论。利用2003年至2023年共21年的250米分辨率MODIS影像数据，我们开发了一种基于自适应Otsu算法的动态洪水提取方法，并进行了时间聚合，生成了一个空间连续的淹没发生数据集。该数据集被用来训练一个极端梯度提升（XGBoost）模型，该模型结合了十二个气候-地表预测因子，包括归一化植被指数（NDVI）、土地利用、温度、海拔和地下水异常。模型评估显示出了较高的预测准确性（R2=0.82，RMSE=0.02），在性能和效率方面均优于其他常见的机器学习和深度学习方法。可解释的人工智能（AI）技术，如SHapley加性解释（SHAP）和偏依赖图（PDPs），揭示了NDVI、土地利用和温度是主要的预测因子，强调了植被-气候相互作用在区域洪水易发性中的重要性。偏依赖分析揭示了一个非线性的“热抑制”阈值。农田和城市地区对极端温度的敏感性更高，突显了地表变化对洪水动态的影响。本研究生成的21年日平均淹没发生率地图支持多种应用，包括早期预警系统、基础设施规划和气候适应策略，特别是在数据有限的跨境背景下。

引言

洪水是全球最频繁和最具破坏性的自然灾害之一，对社会经济活动和环境稳定性产生了重大影响（Adhikari等人，2010年；Tellman等人，2021年）。准确的洪水易发性预测对于最小化这些影响至关重要，特别是在印度-中国半岛（ICP）等易发生洪水的地区，那里复杂的地形和季风主导的气候经常导致大规模的淹没事件（Ahamed和Bolten，2017年；Chen等人，2020年；Hu等人，2018年；Liu等人，2018年）。

传统上，SWAT、HEC-HMS、VIC、MIKESHE等水文模型被广泛用于洪水预报和水资源管理（de Paula Netto等人，2024年；Devia等人，2015年；Hosseiny，2021年）。尽管这些模型基于物理原理，但由于计算需求高和需要大量的输入数据，它们在实时和大规模应用中往往不切实际。此外，这些模型通常在流域尺度上进行校准，并依赖于详细的物理参数，包括土地利用、土壤特性和气象强迫。然而，在数据稀少或水文复杂的地区，如ICP，它们的可转移性和性能往往受到限制（Han和Morrison，2022年；Kumar等人，2023年；Noor等人，2022年；Pham等人，2021年）。经典的统计模型——包括Gumbel分布、广义极值（GEV）分布、Log-Pearson Type III分布（水资源委员会，1975年）以及与广义Pareto分布（GPD）相结合的峰超过阈值（POT）方法（Coles等人，2001年）——使用长期年最大值或超越序列来估计不同重现期的洪水强度。模型校准特别耗时，且通常是特定于地点的，这限制了模型在不同地区或时间尺度上的可转移性。许多这些模型假设流域内的空间同质性，并依赖于离散的测量观测数据，使得它们在捕捉多样景观下的洪水动态的空间变异性方面效果较差（Devia等人，2015年）。

此外，有限的观测记录和数据不连续性给可靠的洪水估计带来了重大挑战，特别是在没有测量站或数据稀缺的地区（Boni等人，2007年；Gao等人，2017年）。气候-地表相互作用的复杂性不断增加，加上观测数据的稀少和不规则，进一步限制了模型捕捉多年洪水动态的能力。最近在洪水预测方面的进展转向了数据驱动的方法，这些方法可以从多源观测中学习空间-时间模式（Sanjay Shekar & Vinay，2021年）。

相比之下，遥感和机器学习（ML）的最新进展为数据有限的条件下的大规模洪水建模提供了有希望的替代方案。基于卫星的传感器，包括光学传感器（Donchyts等人，2016年；Ji等人，2015年；Pekel等人，2016年）、雷达（Amitrano等人，2018年；Yan等人，2015年）和微波仪器，已被广泛用于检测洪水范围并随时间生成淹没地图。特别是MODIS数据，提供了250米分辨率的一致且频繁的覆盖，有利于多年、大范围的洪水易发性分析（Kuenzer等人，2015年）。

ML模型越来越多地应用于洪水预测（Fu等人，2022年；Razavi-Termeh等人，2025年；Shen，2018年），通常使用海拔、坡度和土地利用等静态指标来预测易发生洪水的区域（Abijith等人，2025年；Antzoulatos等人，2022年；Assouline等人，2024年；Avand等人，2021年；Bui等人，2019年；Tien Bui等人，2020年）。在ML技术中，基于树的模型——如随机森林（RF）和极端梯度提升（XGBoost）——在地理空间任务中表现出强大的预测性能和可扩展性（Bui等人，2019年；Huang等人，2019年；Kaiser等人，2022年；Lyu和Yin，2023a；Tien Bui等人，2020年）。尽管取得了这些进展，大多数基于ML的洪水研究仍然依赖于稀少且基于事件的洪水数据集——这些数据集要么是从历史记录中手动整理的，要么是从灾害数据库中提取的（Kumar等人，2023年）。这些数据集缺乏进行稳健洪水风险评估所需的空间和时间连续性，限制了模型的泛化能力和在变化的气候和土地条件下评估洪水风险的能力。

此外，大多数现有的洪水检测产品依赖于单次事件的影像或历史洪水发生的稀疏记录，这些记录本质上缺乏分析多年时空淹没模式所需的时间连续性，限制了它们在区域规划和风险评估中的实用性，特别是在数据稀缺的地区（Bou等人，2024年；Misra等人，2025年）。

为了解决这些限制，本研究将21年的卫星观测数据与可解释的ML相结合，开发了一个可扩展的洪水易发性预测框架，该框架结合了多年淹没暴露分析、土地-气候相互作用和可解释的水文建模。通过应用自适应Otsu阈值算法并进行时间聚合，使用2003年至2023年共21年的250米分辨率MODIS影像数据，生成了一个一致且高质量的日平均淹没发生率（DAIOR）数据集，该数据集捕捉了ICP在不同环境条件下的洪水发生的空间和时间动态。这里，淹没发生指的是每个像素处卫星观测到的地表水存在的经验频率，不应被解释为水文洪水频率或重现期估计。与之前使用孤立洪水事件的工作不同，这种方法捕捉到了空间和时间上连续的洪水模式，为训练提供了更稳健的基础。然后使用这个连续的数据集来训练ML模型，该模型结合了十二个气候-地表预测因子，包括NDVI、土地利用、地形属性、温度和地下水异常（GWA）等。

本研究的新颖之处在于四个关键贡献。首先，我们构建了一个基于每日MODIS影像的区域一致淹没数据集，为洪水风险建模提供了新的数据资源。其次，我们设计了一个可解释的机器学习框架，该框架在基于水文信息的建模方法中明确结合了地表和气候变量。第三，我们应用了可解释的人工智能（AI）技术——如SHAP值和偏依赖图——来识别洪水易感性的最有力预测因子，并提供了对模型行为的透明洞察。最后，我们将XGBoost模型与其他常用的ML和深度学习（DL）算法进行了比较，包括RF、支持向量回归（SVR）和Light Gradient Boosting Machine（LightGBM）、长短期记忆网络（LSTM）以及卷积神经网络（CNN），以评估它们的性能和稳健性。

通过整合卫星观测、气候-地表耦合和可解释的机器学习，这项工作旨在通过关注观测到的淹没发生而不是基于重现期的洪水频率指标来推进基于卫星的洪水易感性制图，同时在数据有限的条件下提高可解释性。

部分内容

数据来源

本研究使用了三组主要数据：影响洪水的数据、卫星影像和洪水事件数据集。

方法论

Google Earth Engine（GEE）是一个基于云的地理空间分析平台，提供了对各种卫星影像和地球观测数据集的访问权限，以及强大的处理能力。它被研究人员和从业者广泛用于绘制和分析地球表面的变化。GEE可以自动处理数据采集、辐射校准和几何校正（Kazemi Garajeh等人，2023年；Kordi和Yousefi，2022年）。在本研究中，我们使用了

卫星观测淹没

使用2003年至2023年期间研究区域内的所有可用MODIS影像数据，生成了21张年度淹没发生地图（图4）。这些地图展示了洞里萨湖盆地及更广泛ICP地区的年际淹没变化。图5总结了淹没面积占研究区域总面积的百分比。从2003年到2023年，淹没面积的比例有所波动，但年平均洪水覆盖范围保持

21年遥感衍生的洪水DAIOR数据

最近的研究强调了全球一致且具有长时间覆盖范围的洪水数据集的持续稀缺性，特别是那些能够捕捉极端事件和区域到大陆尺度上反复发生淹没动态的数据集（Misra等人，2025年）。本研究提出了一个基于ICP地区二十多年（2003年至2023年）每日MODIS卫星影像的淹没发生数据集。该数据集提供了时间连续、空间广泛的

结论

本研究提出了一个区域级的、可解释的机器学习框架，用于预测跨境河流流域的淹没发生情况，利用了二十年的遥感数据。

通过利用2003年至2023年的每日MODIS影像数据，该研究捕捉了不同景观下洪水事件的空间分布和年际变化。由此产生的数据集提供了迄今为止ICP地区最一致和连续的淹没模式记录

未引用的参考文献

记录#233，xxxx。

CRediT作者贡献声明

黄刚娅：撰写——原始草稿、可视化、验证、软件、方法论、数据管理。Alex Hay-Man Ng：撰写——审阅与编辑、监督、方法论、调查、资金获取、概念化。周倩倩：撰写——审阅与编辑、验证、监督、方法论、调查、概念化。朱庆高子：撰写——审阅与编辑、监督、方法论、调查。杜泽远：撰写——审阅与编辑、监督、调查。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

作者感谢NASA、NOAA、USGS和NSIDC提供免费的下载服务和所有数据集。我们感谢B. Tellman等人提供全球洪水数据集，以及CGIAR CSI提供全球DEM。此外，我们非常感谢匿名审稿人对手稿提供的宝贵和建设性评论。

本研究得到了广东省引进创新和创业团队计划（2019ZT08L213）和国家自然

热点排行

新闻专题

联系信箱：

粤ICP备09063491号