利用机器学习方法构建土耳其地面运动模型,以评估基于持续时间和速度的强度指标,并进行与震级相关的性能评估

《Engineering Applications of Artificial Intelligence》:Machine learning approaches to ground motion models for duration and velocity-based intensity measures in Türkiye with magnitude-dependent performance assessment

【字体: 时间:2026年02月06日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  本研究基于土耳其强震动数据集(747次地震,23,147条记录),开发了集成机器学习框架(Stacking-GBR)预测非光谱地面运动强度指标(CAV、PGV、SI及多区间持续时间)。通过四种子震级(3.5-6.5及>6.5)和全数据集的五折交叉验证,验证了Stacking-GBR模型在所有指标中的最高预测精度(R2最高达0.99),并揭示震级和距离主导速度/能量指标,而源场-场地几何和路径参数影响持续时间指标。残差分析表明模型在中小震级表现稳定,但大震级持续时间预测存在数据稀缺性带来的不确定性。研究为可解释机器学习在地震工程中的应用提供了方法学参考。

  
Tugce Tetik | P?nar Cihan
土耳其泰基尔达格纳米克·凯马尔大学,乔鲁尔工程学院,土木工程系,泰基尔达格

摘要

本研究开发了一个集成机器学习(ML)框架,利用土耳其地区的地震数据集(747次地震,23,147条记录)来预测非光谱地面运动(GM)强度指标(IMs),包括持续时间参数、累积绝对速度(CAV)、峰值地面速度(PGV)和豪斯纳强度(SI)。数据选择基于明确的地震学标准:矩震级(Mw)≥3.5、震中深度<30公里、震中距<200公里以及每次事件至少有5个台站的记录,以确保区域一致性。模型开发采用了五折交叉验证方案,并在四个Mw区间(3.5≤ Mw ≤ 4.5、4.5w ≤ 5.5、5.5w ≤ 6.5、Mw > 6.5)以及完整数据集上严格评估了模型性能,以捕捉潜在的非线性缩放效应并确保在不同地震能量水平下的泛化能力。使用了四种集成ML算法:极端梯度提升(XGBoost)、随机森林(RF)、梯度提升回归器(GBR)和堆叠GBR。堆叠GBR在所有IMs和震级区间中都表现出更高的预测能力,决定系数(R2)值高达0.99,即使在数据稀缺的情况下,对于Mw > 6.5的预测也保持了高准确性。通过SHapley加性解释(SHAP)对模型进行解释性分析后发现,震级和距离指标对基于速度/能量的IMs影响较大,而源到场的几何特性和路径参数则影响基于持续时间的IMs。残差分析表明,PGV和CAV在不同区间内的行为稳定且偏差较小,而小规模和大规模事件的持续时间分布较广,这反映了数据不平衡带来的认知不确定性。研究结果支持将可解释的集成ML模型,特别是堆叠GBR,应用于地震灾害评估和基于性能的地震工程工作流程,强调了需要更多大震级数据来稳定持续时间预测。

引言

准确预测地面运动(GM)强度指标(IMs)是基于性能的地震工程的关键组成部分,尤其是在地震风险较高的地区。尽管传统的地面运动模型(GMMs)被广泛使用,但它们通常依赖于刚性的参数形式和特定地区的校准,这可能限制了它们在不同地震场景下的泛化能力。此外,这些方程通常缺乏捕捉源、路径和场地特征之间复杂非线性关系的灵活性。
集成机器学习(ML)的最新进展引入了数据驱动的替代方案,这些方案在模拟非线性和处理高维数据集方面展现出显著潜力。特别是集成学习技术,在回归准确性和灵活性方面都超过了传统方法。然而,在确保ML模型在不同震级尺度和地震条件下的可靠性、可解释性和泛化能力方面仍存在挑战。
在地震灾害特征描述、结构响应评估和基于韧性的设计领域,基于持续时间和速度的强度指标(IMs)因其工程相关性而被越来越多地使用。这些指标中常用的参数包括从5–75%、5–95%和20–80%阿里亚斯强度(Ia)累积区间(D5-75、D5-95、D20-80)定义的显著持续时间指数、累积绝对速度(CAV)和豪斯纳强度(SI)。然而,与峰值地面加速度(PGA)或峰值地面速度(PGV)相比,这些IMs在基于ML的框架中建模的频率较低,特别是在考虑震级依赖的性能变化时。
许多研究专注于使用传统GMMs和现代ML技术对基于能量和持续时间的GM IMs(包括Ia、CAV和显著持续时间区间)进行实证预测。传统GMMs历史上依赖于输入特征有限的线性回归方法,在复杂的地震构造环境中提供了合理的准确性,但灵活性较低(Bommer等人,2009年;Campbell和Bozorgnia,2010年、2012年、2019年;Kempton和Stewart,2006年;Travasarou等人,2003年;Tselentis等人,2005年)。最近的方法结合了区域数据集和额外的预测变量来改进这些模型(Wang和Wang,2025年;Zafarani,2023年)。在土耳其的地震构造背景下,BSA09模型(Bommer等人,2009年)为显著持续时间指标提供了区域公式,被广泛用作基于持续时间的强度指标的参考。该模型展示了持续时间与震级和距离的物理一致性缩放,因此是评估新兴数据驱动持续时间模型外部有效性的关键基准。然而,这些基于回归的模型仍然假设了预定义的功能形式,限制了它们捕捉非线性源-路径-场地相互作用和震级缩放的能力。特定地区的模型(Sand?kkaya和Akkar,2017年;Tselentis等人,2005年;Zafarani,2023年)提高了局部适用性,但突出了在不同构造环境下的泛化挑战。
为了克服这些限制,人们对基于ML的模型越来越感兴趣。最近的研究引入了使用GBR、RF和深度神经网络等算法的非参数框架来模拟地震参数之间的复杂相互作用(Hussaini等人,2024年;Ji等人,2022年;Kuran等人,2023年)。其他基于ML和DL的研究(Fayaz和Galasso,2022年;Wang和Wang,2025年)进一步将应用扩展到CAV、AI、PGA和PGV等参数,显著提高了预测准确性。然而,大多数先前的基于ML的研究并未系统地研究持续时间IMs,只有少数研究明确考虑了震级依赖的性能。
最近的地震研究表明,在大震级(Mw > 6.5)记录稀少的地区,仅依靠实证数据集不足以实现地面运动模型中的稳定震级缩放。为了解决这一限制,最近的研究越来越多地依赖于基于物理的GM模拟,如动态破裂建模(Bydlon等人,2019年)和结合确定性低频和随机高频成分的宽带混合模拟(Graves和Pitarka,2010年)。这些模拟保留了区域性的源-路径-场地特征,并为推断更大震级的GM行为提供了物理上一致的约束(Lin和Smerzini,2022年)。因此,未来基于区域的ML基GMM的扩展预计将从将实证强运动数据集与基于区域的物理模拟相结合中受益,特别是在实证Mw记录大于6.5–7.0的地震构造环境中。
在之前的研究(Tetik和Cihan,2026年)中,使用土耳其强运动数据集开发了非参数ML模型来预测基于持续时间和能量的强度指标,并通过SHapley加性解释(SHAP)进行了可解释性分析。本研究通过引入基于震级的子分组来评估不同能量水平下的泛化能力,采用堆叠GBR集成来整合互补的学习器,并扩展了残差分解和基准测试,包括对PGV的专门分析。
此外,为了确保透明度和可解释性,使用SHAP来分析输入特征在预测每个IM中的相对重要性。这种综合方法既关注震级敏感性,也关注模型可解释性,为ML模型的技术性能和影响GM行为的物理关系提供了宝贵的见解。
本研究的主要贡献可以总结如下:
  1. 使用了来自土耳其的大量强运动数据集,促进了统计上可靠的模型开发。
  2. 实施了基于震级的子分组策略,以评估最先进的集成ML模型在不同地震强度水平下的泛化能力和可靠性。
  3. 采用基于SHAP的模型解释方法来识别最具影响力的预测因子,并深入了解每个强度指标的物理决定因素。
  4. 进行了全面的残差分析,以评估Mw、RRUP和Vs30相关的事件间和事件内变异性,从而确保ML预测的透明性和有效性。
通过实现这些目标,本研究为GM建模的可解释和可扩展ML方法做出了贡献,对地震灾害评估和韧性基础设施设计具有实际意义。

材料与方法

方法框架的过程从数据收集和准备阶段开始,定义了六个关键的GM IMs作为目标变量进行预测,包括CAV、PGV、SI以及持续时间(D5-75、D5-95、D20-80)。对于每个参数,数据集被划分为五个基于震级的组(见图1):g1(3.5 ≤ Mw ≤ 4.5)、g2(4.5 < Mw ≤ 5.5)、g3(5.5 < Mw ≤ 6.5)、g4(Mw > 6.5)以及g5(涵盖3.5 ≤ Mw ≤ 7.7的完整数据集)。这种分组策略直接

残差分析和讨论

本研究使用堆叠GBR集成模型对选定的GM参数(包括CAV、PGV、SI(图8)、D5-75、D5-95、D20-80)的残差分布进行了基于震级的评估。事件间(inter-event)和事件内(intra-event)残差的分析提供了关于模型预测可靠性、偏差特征以及跨震级范围的整体泛化能力的关键见解。本研究中的所有残差均以

结论

本研究开发并验证了一个集成ML框架,用于预测非光谱GM IMs,包括CAV、PGV、SI、D5-75、D5-95和D20-80,使用了划分为基于震级组的土耳其大规模强运动数据集。所提出的堆叠GBR模型在所有IMs和震级区间中始终实现了最高的预测准确性,CAV、PGV和SI的R2值接近0.99,即使在基于持续时间的参数上也保持了竞争性的性能

CRediT作者贡献声明

Tugce Tetik:撰写 – 审稿与编辑、撰写 – 原稿、可视化、验证、软件、方法论、正式分析、数据管理、概念化。P?nar Cihan:撰写 – 审稿与编辑、撰写 – 原稿、可视化、验证、监督、软件、方法论、概念化。

代码可用性

本研究使用的所有代码都可以在以下GitHub仓库公开获取:https://github.com/pcihan/Ground-Motion-Model

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号