通过整合地质和降雨因素的广义线性混合效应模型对浅层滑坡进行概率预测

《Geomatics, Natural Hazards and Risk》:Probabilistic prediction of shallow landslides through a generalized linear mixed-effects model integrating geological and rainfall factors

【字体: 时间:2025年11月02日 来源:Geomatics, Natural Hazards and Risk 4.5

编辑推荐:

  浅层滑坡预测基于广义线性混合效应模型(GLMM)的整合分析,整合地质、地形、植被和降雨数据,在广东省2013-2022年实证中显示GLMM准确率超80%,较传统I-D和E-D模型平衡敏感性及特异性更优,减少误报和漏报。主要预测因子为降雨强度与持续时间(正向关联)、NDVI(负向关联),空间异质性显著。研究提出可解释的模型框架,适用于区域风险评估与预警系统优化。

  在山区和丘陵地带,浅层滑坡对基础设施、生态系统和人类生命构成严重威胁。然而,准确预测滑坡的发生仍然面临挑战,主要原因是复杂的环境交互作用和空间异质性。本研究开发了一种基于广义线性混合效应模型(GLMM)的概率多因素模型,用于预测浅层滑坡的发生。该模型将岩石类型、土壤类型、归一化植被指数(NDVI)、坡度、坡向、海拔、降雨强度和持续时间作为固定效应,同时通过随机效应捕捉空间和时间上的分组特征。我们应用该模型对广东省的广泛滑坡数据库进行了验证,数据库涵盖了2013年至2022年间发生的2167次浅层滑坡事件和2166次对照事件。与传统的降雨强度-持续时间(I–D)和事件-持续时间(E–D)阈值模型相比,GLMM方法在预测性能上显著提升,达到了80%以上的准确率,同时保持了较高的敏感性和特异性,从而实现了更可靠的预警和减少不必要的疏散。降雨强度和持续时间是最重要的正向预测因子,而NDVI则显示出显著的负向影响。GLMM不仅提供了可解释的系数,还能够处理分组环境数据,使其适用于区域尺度的滑坡风险评估。我们的研究结果突显了整合多维预测因子的价值,并为操作性滑坡早期预警系统提供了一个可靠且可解释的工具。

降雨是浅层滑坡的主要触发因素之一,长期或高强度的降雨会导致孔隙水压迅速上升,从而引发坡体失稳(Chae和Kim, 2012;Proke?ová等, 2013;Yin等, 2016)。为了预测滑坡的发生,研究人员开发了基于降雨阈值的模型,这些模型可以是基于物理原理或经验统计的(Arnone等, 2011;Ding等, 2022;Guzzetti等, 2007;Marchi等, 2002)。基于物理原理的模型通过整合坡体稳定性与水文过程来估算引发滑坡的关键降雨输入,但这些模型在充分捕捉植被、土壤和水文复杂性方面存在局限(Martelloni等, 2012),因此更适合小范围的应用(Aleotti, 2004;Guzzetti等, 1999;Mercogliano等, 2013;Rossi等, 2013;Segoni等, 2009)。相比之下,经验模型通过分析历史滑坡触发事件来定义阈值曲线,如强度-持续时间(I–D)、事件-持续时间(E–D)或事件-强度(E–I)关系,这些模型虽然简单,但在不同空间尺度上被广泛应用于滑坡预测(Guzzetti等, 2008;Tiranti和Rabuffetti, 2010)。然而,这些模型通常仅依赖于降雨数据,忽略了影响滑坡易发性的关键环境和地质因素,如地形、土壤类型和植被覆盖。

为了克服这些限制,一些研究开发了结合降雨指标与额外变量(如前期土壤湿度、有效应力或滑坡易发性指标)的双因素模型,从而提高了预测精度和早期预警的应用性(Cullen等, 2016;Emberson等, 2021;Irawan等, 2019;Kluger等, 2020;Pradhan等, 2019;Segoni等, 2014)。尽管这些模型在性能上有所提升,但它们仍然主要是经验性的,常常无法在统计学框架中全面整合多样化的环境因素。特别是,它们在处理滑坡数据的层次结构和多维复杂性方面存在不足。这些局限性突显了需要一种能够捕捉气候、地质和地形条件之间耦合关系的多因素概率预测方法。为此,一些研究采用了机器学习模型,将地形、地质和水文变量结合起来以进一步提升预测准确性(Emberson等, 2020;Emberson等, 2021)。然而,这些模型的可解释性较差,限制了其在支持机制理解和科学推断方面的应用,这对政府决策和区域滑坡风险管理至关重要。此外,这些模型往往忽视了滑坡数据的分组或嵌套结构,限制了其在操作性滑坡预测环境中的适用性,因为在这些环境中,预测准确性和结构透明度同样重要。

为了应对这些挑战,我们采用广义线性混合效应模型(GLMM)来构建一个在统计学上可解释且在操作上可行的区域尺度滑坡预测框架。GLMM通过引入随机效应,扩展了传统回归模型,使其能够处理分组和空间结构化的数据。GLMM为每个预测变量提供了可解释的系数,使风险管理者能够理解环境因素对滑坡发生的影响程度。这种可解释性对于风险沟通和操作性早期预警系统的透明决策至关重要。GLMM因其能够处理观测值之间的非独立性以及提升模型可解释性而在环境和生态建模中被广泛应用(Batáry等, 2025;Wang等, 2025)。

本研究使用广东省的实证数据对GLMM进行了训练和验证,广东省因复杂地形和强降雨频繁引发浅层滑坡。模型整合了地质和环境因素(岩石类型、土壤类型、植被指数、坡度、坡向、海拔、降雨强度和持续时间)作为预测变量。为了评估预测性能,我们将所提出的模型与传统的降雨阈值模型(I–D和E–D)进行比较,这些模型在滑坡预测中广泛使用,并且仍然是操作性滑坡早期预警系统中的常见工具。我们评估了每个模型的性能,并检查了单个预测因子在塑造滑坡发生中的相对重要性。

广东省的地形特征显著,从北向南和从东向西,海拔逐渐降低。北部地区由陡峭的中低海拔山地组成,部分山峰超过1900米。东部和西部主要由低山和丘陵组成,夹杂着山谷和偶尔的高原。中部珠江三角洲由河口冲积平原组成,周围环绕着低丘和阶地,而南部沿海地区则逐渐过渡为平原和高原。雷州半岛主要由玄武岩高原和河流冲积平原构成。

地质方面,广东省跨越了从寒武纪到第四纪的多个地层。主要的岩石类型包括页岩、花岗岩、砂岩、火山岩、河流沉积物、碳酸盐岩、变质岩复合体以及混合岩石类型。土壤类型主要包括第四纪软塑性沉积物、风化坡积物、砾质黏土、黏壤土、砂质土壤和砂砾土。

遥感数据用于提取地形变量,包括海拔、坡度和坡向。这些变量来源于ASTER GDEM V3,这是一个由日本经济、贸易和工业部(METI)和美国国家航空航天局(NASA)联合开发的30米分辨率数字高程模型。数据通过中国科学院地理空间数据云平台(https://www.gscloud.cn/)获取,并处理以提取样本点的值。

卫星植被指数数据来源于Terra MODIS系列的MOD13Q1 V6.1产品,该产品提供250米空间分辨率和16天时间分辨率的归一化植被指数(NDVI)。通过基于坐标的时序提取方法,我们从NASA Earthdata提供的MODIS MOD13Q1 V6.1数据集中获取了滑坡和非滑坡样本点的NDVI值。

在模型实现过程中,我们选择了与浅层滑坡过程具有机制相关性的预测变量,如岩石类型、土壤类型、植被指数、坡度、坡向、海拔、降雨强度和持续时间。这些变量的选择得到了理论和实证研究的支持(Antinoro等, 2017;Lopez Saez等, 2013;Montgomery和Dietrich, 1994;Alvioli等, 2018;Bezak等, 2019)。岩石类型影响岩石强度和风化程度,从而影响坡体的结构稳定性。土壤类型决定了降雨事件中的渗透和孔隙水压行为。NDVI作为植被覆盖的代理指标,通过根系加固和水分提取增强坡体抗滑能力。坡度决定了重力作用,而坡向控制太阳辐射和水分保持。海拔与降雨梯度和植被模式相关,而降雨强度和持续时间则是直接引发坡体失稳的水文触发因素。这些变量的选取得到了其在滑坡预测和易发性建模研究中的广泛应用支持(Antinoro等, 2017;Crozier, 2010;Gariano和Guzzetti, 2016;Mondini等, 2023;Reichenbach等, 2018;Wu和Sidle, 1995),同时也与基本的地球物理过程相一致。

为了确保模型输入数据的有效性,我们首先对收集的滑坡样本、降雨数据、岩石和土壤数据以及遥感数据进行了质量控制。记录中包含缺失值或异常值(定义为超过均值两倍标准差的值)的数据被排除。此外,为了确保分类平衡和稳健的验证,最终使用包含2167个有效滑坡点和2166个非滑坡点的数据集进行模型开发。数据集被随机分为训练集和测试集,比例为90:10。具体而言,1950个滑坡点和1953个非滑坡点用于训练,217个和213个用于测试。

在建模之前,我们评估了预测变量之间的多重共线性,以确保模型的稳定性,使用了容忍度(TOL)和方差膨胀因子(VIF)进行分析。公式如下:

TOL = 1 / VIF

VIF = 1 / (1 - R_i^2)

其中,R_i^2是从将第i个预测变量与其他变量进行回归分析得到的决定系数。TOL < 0.2 或 VIF > 5 的变量被排除,以确保数值稳定性和避免标准误差的膨胀。

多重共线性如果未被处理,可能会掩盖单个效应的解释,降低模型的可靠性。消除共线性可以提高估计的稳定性和推断的清晰度。

如表1所示,所有预测变量的VIF值在1.004到1.510之间,TOL值在0.662到0.996之间,表明变量之间的共线性较低。这些值确认了变量之间低程度的共线性,证明它们适合纳入模型。

随机效应捕捉了时空结构,时间被分为10个类别(1月到9月为1-9,10月到12月为10,由于事件较少),空间则根据行政单位划分为21个空间聚类。包括14种岩石类型、15种土壤类型和8种坡向类别的分类变量被数值编码。连续预测变量,如海拔和降雨持续时间,根据适当情况进行标准化或对数变换。坡度、NDVI和降雨强度则保留原始形式。这种层次编码使模型能够捕捉关键物理驱动因素之间的非线性和嵌套相互作用。

通过将估计的固定效应系数和随机效应截距代入模型,我们得出了滑坡发生概率与影响因素之间的线性关系。公式如下:

ln(p / (1 - p)) = -2.6676 - 0.0228x1 + 0.0064x2 + 0.0538x3 + 0.0081x4 + 0.012x5 - 0.4807x6 + 0.4912x7 + 0.1893x8 + x9

其中,x1到x8分别代表岩石类型、土壤类型、坡度、海拔、坡向、NDVI、降雨强度和降雨持续时间;x9代表空间和时间分组的随机截距;p表示滑坡发生的概率。采用p = 0.5作为分类阈值,将样本分为滑坡或非滑坡事件。

为了解释预测因子的影响,我们基于拟合的固定效应系数和组别截距进行了敏感性分析,量化了每个因素的贡献,并估计了置信区间以反映不确定性。

我们还建立了I–D和E–D阈值模型,用于分析滑坡触发的降雨条件。如图6a所示,降雨强度(I)和持续时间(D)之间存在互补关系:较短的降雨事件通常与较高的强度相关,而较长的持续时间则与较低的强度相关。具体而言,当降雨持续时间小于10小时时,需要较高的降雨强度才能触发滑坡。然而,这种短期高强度事件引发的滑坡比例相对较低,这可能是由于地表径流和植被拦截限制了水分渗透到地下材料。相反,当降雨持续时间超过100小时时,即使降雨强度较低(I ≤ 1 mm/h),也可能导致坡体失稳。尽管如此,这种长持续时间、低强度降雨条件下的滑坡频率仍然有限,这可能是因为此类降雨缺乏足够的水力作用来显著改变孔隙水压或降低土壤和岩体的有效应力。这些观察结果表明,I–D模型在中等持续时间范围内(10-100小时)对识别高风险降雨事件更为有效。虽然在结果部分讨论了不同百分位阈值的预测性能,但选择了2百分位作为详细说明的代表性案例,因为它具有强的经验相关性和保守的早期预警意义。

模型的评估指标包括准确率(ACC)、精确率、召回率、F1分数和交并比(IoU)。这些指标基于验证数据集中真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)的数量进行计算。公式如下:

ACC = (TP + TN) / (TP + TN + FP + FN)

Precision = TP / (TP + FP)

Recall = TP / (TP + FN)

F1 = 2 * (Precision * Recall) / (Precision + Recall)

IoU = TP / (TP + FP + FN)

其中,TP和TN分别代表正确预测的正例和反例;FP指的是非滑坡被误判为滑坡的假正例;FN指的是滑坡被漏判的假反例。

模型的预测性能评估结果如表2所示。GLMM在所有指标上均优于I–D和E–D阈值模型。它达到了0.8233的准确率、0.7831的精确率、0.8986的召回率、0.8369的F1分数和0.7196的IoU,表明其具有强大的预测能力,并在漏报和误报率之间取得了良好的平衡。相比之下,I–D和E–D模型在百分位阈值下表现出凸型抛物线趋势,精确率和召回率之间存在明显权衡。其中,40百分位和50百分位的模型表现最为平衡:40百分位模型的准确率、精确率、召回率、F1分数和IoU分别为0.7186、0.7034、0.7650、0.7329和0.5784;而50百分位模型对应的数值分别为0.7259、0.7438、0.6959、0.7190和0.5613。值得注意的是,2百分位阈值模型的召回率最高(0.9954),但其准确率和精确率较低(分别为0.5419和0.5243),表明其存在较大的过度预测问题,且在需要高特异性的场景中适用性有限。GLMM的优越性能归因于其整合了地质、地形、植被和气象变量,而传统仅依赖降雨的阈值模型则缺乏这些变量。这种整合提升了预测准确性,并加强了模型在操作性滑坡预测中的实用性。

总体而言,GLMM在漏报和误报率之间取得了最佳平衡,使其在操作性滑坡预测中更受欢迎。相比之下,基于百分位的I–D模型更适合在数据稀疏的环境中进行快速早期预警,因为其在最小化漏报方面具有优先性。

本研究提出的模型在广东省的实证测试中表现出色,能够整合地质、地形、植被和气象变量,从而在预测性能上优于传统的I–D和E–D阈值模型。GLMM框架在处理分组环境数据方面具有统计学上的严谨性和可解释性,使其成为区域尺度滑坡风险评估和政策应用的理想选择。该模型的透明输出有助于地方政府和风险管理机构在数据有限或空间异质性较大的地区做出实际决策。此外,模型不仅提供了对关键环境驱动因素的相对重要性的见解,还强调了降雨强度、降雨持续时间和植被覆盖(NDVI > 0.8)在滑坡发生中的主导作用。这一发现突显了生态策略在降低滑坡风险中的潜力,为滑坡易发区的生态恢复提供了重要依据。

除了这些物理洞察,我们还对模型预测因子的统计可靠性进行了评估。通过使用方差膨胀因子(VIF)和容忍度值,我们发现没有严重的共线性问题。这表明预测因子对模型的贡献是独立的,尽管坡度和NDVI之间存在中度相关性,可能影响系数的大小。这些依赖关系已在模型的规范和解释中得到了处理。

本研究的结论表明,开发一种基于广义线性混合效应模型的滑坡预测方法,能够有效整合地质、地形、植被和气象变量,从而提升预测性能。GLMM框架不仅在统计学上严谨,还提供了可解释的系数,使其适用于区域尺度的早期预警系统和灾害区划。其透明的输出有助于地方政府和风险管理部门在数据有限或空间异质性较高的地区做出实际决策。此外,模型还揭示了关键环境驱动因素的相对重要性,突出了降雨强度、降雨持续时间和植被覆盖在滑坡发生中的主导作用。特别是,植被覆盖(NDVI > 0.8)被证明是滑坡发生的重要限制因素,这为易发区的生态策略提供了重要依据。

未来的研究可以进一步纳入其他动态变量,如土壤湿度。然而,目前的卫星反演土壤湿度产品通常具有较低的空间分辨率,这限制了它们在区域尺度滑坡预测中的应用。通过先进的遥感技术或密集的区域地面监测网络生成或融合高分辨率、时间分辨率的土壤湿度数据,将有助于模型更好地捕捉短期水文前兆,从而提升预测能力。同时,未来模型应致力于结合先进机器学习架构的预测能力与模型的可解释性和操作可行性,确保其在区域灾害预防和早期预警系统中的实际相关性。

本研究的成果不仅对滑坡灾害管理具有重要意义,还为可持续发展目标提供了支持。滑坡风险的降低可以通过植被恢复和保护等生态策略实现,这些策略对于脆弱的山区环境尤为重要。未来的研究可以进一步探索植被如何通过生物力学和水文机制影响坡体稳定性(Gonzalez-Ollauri和Mickovski, 2017;Xiao等, 2024),从而为将生态方法整合到灾害风险管理框架中提供理论支持。这些见解将有助于在滑坡易发地区制定更具针对性的坡体管理措施、基础设施规划和灾害预防政策。

模型的开发和验证过程表明,GLMM在处理分组数据和非独立数据方面具有显著优势。通过引入随机效应,GLMM能够更有效地应对数据中的复杂结构和异质性,同时保持较高的预测准确性和可解释性。这种平衡使其成为区域尺度滑坡风险评估的理想选择,尤其适用于需要统计严谨性和可操作性支持的决策场景。未来的研究应进一步优化模型的时空分组,探索无监督聚类方法以提升模型的适用性。此外,还可以考虑在自然不平衡条件下评估模型的性能,以更准确地反映实际的滑坡频率。数据集的分辨率和可用性也对模型性能有重要影响,因此未来研究应致力于提高数据的精度和完整性,以增强模型的鲁棒性和泛化能力。

总的来说,本研究提出的GLMM模型为滑坡灾害的预测和管理提供了一个新的视角。通过整合多维预测因子,该模型不仅提高了预测性能,还增强了对滑坡机制的理解。这种模型的应用将有助于在滑坡高风险地区实施更加科学和有效的风险管理策略,从而减少灾害带来的损失,保障人民生命财产安全。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号