SMOTE-BN-FLA：一种改进的贝叶斯网络模型，用于数据稀缺地区降雨引发的洪水损失估算及机制解析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Hydro-environment Research》：SMOTE-BN-FLA: enhanced Bayesian network for rainfall-induced flood loss estimation and mechanism decoding in data-scarce regions

【字体：大中小】 时间：2026年01月14日 来源：Journal of Hydro-environment Research 2.3

编辑推荐：

　　针对气候变化下降雨引发洪水损失评估中数据不均衡与灾害机制不透明问题，提出SMOTE-BN-FLA融合框架，通过SMOTE处理数据不平衡与贝叶斯网络量化预测不确定性，在福建2022和2024年洪水事件中验证其显著优于传统模型（R2=0.74，ROC=0.96），并揭示人均GDP和累计降水量主导损失，地形-植被-灾害协同作用的关键机制。摘要：

徐圆圆|吴继东

北京师范大学灾难模拟与系统性风险治理联合国际研究实验室，中国珠海519087

摘要

由于气候变化，由降雨引发的洪水损失正在上升，但由于数据分布不均衡和灾害机制不明确，准确估计仍然具有挑战性。为了解决这两个问题，本研究提出了SMOTE-BN-FLA框架，该框架将合成少数样本过采样技术（SMOTE）与数据驱动的贝叶斯网络（BN）相结合，用于洪水损失评估。该框架利用涵盖灾害强度、环境敏感性和社会经济脆弱性的多变量指标，通过五种SMOTE变体系统地减轻类别不平衡问题，并通过概率贝叶斯网络输出量化预测不确定性。通过对2022年和2024年福建省洪水事件的验证，该模型显示出比传统方法（随机森林、多元线性回归）更高的准确性（R2 = 0.74，ROC = 0.96）、更大的空间稳定性和更弱的尺度依赖性，尤其是在极端损失情况下。值得注意的是，它捕捉到了77%的相对损失超过1%的事件，克服了传统方法固有的低估偏差。机制分析确定人均GDP（国内生产总值）和累积降水量是主要驱动因素，而级联路径揭示了地形-植被-灾害之间的协同作用。该模型兼具预测工具和可解释的灾害政策制定系统的双重用途。这种混合方法通过同时解决数据稀缺限制和解析区域特定的损失因果模式，推进了降雨引发的洪水风险管理。

引言

随着社会的发展和进步，洪水造成的损失持续增加，而洪水死亡率却在下降（Jonkman等人，2024年；Kundzewicz等人，2013年）。在中国，洪水尤为普遍，造成了巨大的经济损失（Islam和Wang，2024年），并且在气候变暖的情景下预计损失将呈指数级增长（Jiang等人，2020年）。洪水损失的评估和量化可以作为灾后应急管理的指导。此外，它还为灾害预防和缓解措施、灾后恢复和重建以及系统化的洪水风险管理奠定了基础（Bubeck等人，2012年；Kreibich等人，2014年）。此外，对于政策制定者来说，识别高洪水损失区域比识别高风险区域更有意义（Chen等人，2021年）。因此，有必要构建一个合适的模型来评估和预测洪水损失。

方法上，洪水损失评估模型主要是统计模型或物理模型。物理模型基于水动力模拟，能够提供科学上稳健且高分辨率的洪水深度预测。这些模型将水动力方法与损失曲线相结合，使用一维/二维方程来模拟淹没深度以进行损失估计（Wang等人，2024年）。然而，由于两个主要障碍，物理模型不适合区域规模的应用：（1）数据要求过高：它们依赖于米级分辨率的数据，如无人机调查得到的数字高程模型（DEM），这给数据获取带来了重大挑战（Xing等人，2019年；He等人，2023年）；（2）行政不兼容性：降雨引发的洪水数据通常在乡镇或县级进行汇总，使得在次流域尺度上验证模型或将其整合到应急管理系统中变得困难。这些限制阻碍了物理模型在大规模区域洪水损失评估中的使用。

基于统计的洪水损失评估方法可以归纳为两种范式：多变量方法和单变量方法（Museru等人，2023年）。单变量模型的代表是最传统的洪水损失模型——深度-损失曲线，它通过建立洪水深度与经济损失之间的函数来评估直接经济损失（Smith，1994年；Romali等人，2015年）。洪水灾害模型的复杂性增加可以提高预测洪水灾害的能力（Schr?ter等人，2014年），近年来在多变量模型中，树模型（Merz等人，2013年；Wagenaar等人，2017年）和概率模型（R?zer等人，2019年；Schoppa等人，2020年）得到了广泛应用。多变量模型侧重于多源数据的融合，这被认为更适合描述洪水灾害过程的复杂性，识别关键变量，并且比单变量模型有更好的结果（Carisi等人，2018年；Amadio等人，2019年；Schoppa等人，2020年；Di Bacco等人，2024年）。

在广泛用于洪水损失评估的多变量模型中，多元线性回归（MLR）和随机森林（RF）最为常见（Luu等人，2019年；Sulong和Romali，2022年）。MLR模型以其简单的公式和计算效率而闻名，但它们无法捕捉变量之间的相互作用，且可解释性有限（Chen等人，2024年）。作为最常见的机器学习算法之一，RF也经常用于洪水损失估计，并具有明显的优势（Sultana等人，2018年）；然而，它缺乏量化不确定性的能力，而这被认为是洪水损失建模中的关键问题之一（Redondo等人，2024年）。因此，一个合适的洪水损失评估模型应具备多变量性、可解释性和量化预测不确定性的能力——这些特性与贝叶斯网络（BN）非常契合。

BN是一种概率图模型，其中节点代表变量，有向边代表变量之间的条件依赖性（Castro，2021年）。在使用BN进行分类时，它能够捕捉多个因素之间的相关性，输出不是固定的类别，而是划分到不同类别的概率，因此可以更好地量化不确定性。概率损失模型本身提供了这种不确定性信息，因此非常适合不同的决策支持工具（Lüdtke等人，2019年）。在洪水损失评估领域，BN在建筑行业（Schr?ter等人，2014年；Lüdtke等人，2019年）和工业部门（Harris等人，2022年）表现出色，但在区域尺度上的洪水损失评估和预测方面表现较差。

在中国，政府负责赔偿洪水损失，因此区域尺度的洪水损失评估可以为政策制定者提供更好的支持。BN已成功应用于洪水预测、风险评估和制图（Wu等人，2020a；Wu等人，2020b；Huang等人，2023年；Lu等人，2024年）。尽管通过专家驱动的结构补偿了数据稀缺问题，确保了模型的泛化能力，并减少了噪声敏感性（Constantinou等人，2016年；Abdulkareem等人，2019年），但这种方法仍存在显著局限性。它本质上是主观的（Oteniya，2008年），并且经常无法考虑区域特定的因素——特别是关键洪水损失驱动因素的地理差异（Paprotny等人，2020年）。研究表明，数据驱动的模型比基于专家的模型表现更好（Malgwi等人，2021年），甚至基于本地数据的模型也比基于文献综述的模型更准确（Carisi等人，2018年）。

合成少数样本过采样技术（SMOTE）是一种成熟的数据处理技术（Chawla等人，2002年）。将其与BN结合在医学和工程等领域得到了广泛应用。这种集成通过处理不平衡数据显著提高了模型的预测准确性（Fallahi和Jafari，2011年；Yahaya等人，2021年）。在自然灾害研究中，SMOTE常用于处理与地震、滑坡、洪水和火灾相关的数据（Dutta等人，2024年；Kim和Yoon，2023年；Wu等人，2020a；Wu等人，2020b；Shi和Gao，2022年）。值得注意的是，Razali等人（2020年）展示了SMOTE在使用BN和其他模型进行洪水风险预测中的实用性。然而，他们的方法尚未完善，仅限于单一的SMOTE变体，并且与损失估计无关，因此SMOTE-BN在灾害损失评估中的应用尚未得到充分探索。

本研究做出了三个关键贡献：首先，我们引入了SMOTE-BN-FLA框架，将SMOTE与贝叶斯网络相结合，直接解决区域洪水损失评估中的数据稀缺和类别不平衡问题；其次，我们建立了一个全面的验证框架，基于预测准确性、不确定性量化和机制可解释性来评估模型性能；第三，我们通过将其应用于福建省的两起重大洪水事件，展示了该模型的实际稳健性，为风险治理提供了可行的见解。

本文的其余部分组织如下：第2节描述了材料和方法；第3节展示了结果，包括性能比较和机制分析；第4节讨论了更广泛的意义、模型泛化能力和局限性；第5节提出了有针对性的政策建议。

章节片段

材料与方法

本研究的工作流程如图1所示。本研究以福建省的两次洪水事件（2022年和2024年，分别命名为A和B）作为案例研究，实证评估SMOTE-BN-FLA模型。首先，从这些数据集中提取指标，以量化灾害强度、环境敏感性和社会经济脆弱性，如图2所示，这是基于区域灾害系统理论（Shi，2005年）。其次，通过三个关键步骤开发了SMOTE-BN-FLA模型：

模型性能比较

本文系统地评估了SMOTE-BN-FLA、BN、MLR和RF模型在分类和回归维度上的性能，性能指标和方差总结在表2中，相应的箱线图见补充材料。由于MLR的固有特性，仅将其纳入回归性能评估和比较中。为了确保模型结果的稳定性，采用了Bootstrap重采样方法（n = 500）来获得分布

SMOTE-BN-FLA在洪水损失评估中的意义

本文提出的SMOTE-BN-FLA模型结合了多变量分析和数据驱动能力等先进特性。与传统的洪水损失模型（BN、RF、MLR）相比，它在多个方面表现出更优越的性能。具体来说，该模型不仅在不同严重程度下实现了更准确的损失估计，有效解决了数据不平衡和不足的问题，而且还识别了灾害

结论

在本文中，我们提出了一种区域洪水损失评估模型SMOTE-BN-FLA，它创新性地结合了灾害系统理论、多变量SMOTE和数据驱动的BN，有效解决了数据不平衡和不足的问题。SMOTE-BN-FLA的分类和回归性能优于当前的通用模型（RF、BN、MLR），并在真实值测试中表现出更强的稳定性，其中Kmean SMOTE和SVM SMOTE的表现最佳。

CRediT作者贡献声明

徐圆圆：撰写——原始草案、软件、资源、方法论、调查、正式分析、数据整理、概念化。吴继东：撰写——审稿与编辑、监督、资金获取、概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了中华人民共和国应急管理部关键科学技术项目（2024EMST050502）和国家自然科学基金（42077437）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言