利用混合机器学习方法预测膨胀土的压缩指数

《Engineering Applications of Artificial Intelligence》:Predicting the compression index of expansive soils with hybrid machine learning approaches

【字体: 时间:2025年10月08日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  本研究针对膨胀土压缩指数预测难题,开发了基于牛顿-拉夫森优化器改进的XGBoost模型及MLP简化方程,利用包含238组全球样本的数据库验证,模型2的测试集R2达0.903,RMSE仅0.029,并通过三个工程案例验证了MLP简化方程(误差5-14%)的工程适用性,为膨胀土基础设计提供了可靠工具。

  膨润土土壤因其水分引起的体积变化,对地质基础设施的设计、施工和维护提出了重大挑战。尽管对膨胀行为的研究已取得进展,但压缩指数(Cc)作为衡量土壤压缩性的关键指标,却较少受到关注。传统的Cc值通常通过耗时且昂贵的固结试验来获得,而基于普通粘土推导的实证方程可能无法为膨润土提供可靠估计。为了解决这一问题,本研究开发了七种基于五种算法的机器学习模型,用于根据常规实验室测试中可获取的土壤特性估算膨润土的Cc值。研究利用了由60年来的世界范围出版文献汇总而成的238个膨润土样本的全面数据集,对模型进行训练和验证。其中,基于牛顿-拉夫森优化器优化的极限梯度提升(NRBO-XGBoost)模型表现最佳,测试集的决定系数(R2)达到0.903,均方根误差(RMSE)为0.029。敏感性分析表明,塑性指数是最重要的影响因素(31.1%),其次是液限(29.4%)、初始孔隙比(25.3%)和干密度(14.1%),这突显了这些参数对土壤压缩性的主要影响。此外,基于多层感知机(MLP)的简化方程(模型4)通过三个案例研究得到了验证。沉降预测与现场测量偏差在5-14%之间,为无需依赖机器学习技术的工程实践提供了实用工具。这些发现为在膨润土影响下开发合理的地质基础设施设计策略提供了有用的指导。

膨润土的压缩性行为不仅受外部荷载的影响,还受到其矿物学组成和地质起源的影响。膨润土主要通过长期气候条件影响的地质演化形成,这些土壤主要由膨润性粘土矿物如蒙脱石和伊利石组成。沉积环境在膨润土的矿物学特征和随后的地质行为中起着关键作用。由湖泊、海洋和冲积沉积物形成的土壤通常表现出较高的粘土含量和塑性,这显著影响其压缩性。相比之下,由玄武岩、页岩或花岗岩的原位风化形成的残积土壤由于矿物风化阶段的不同,其压缩性表现出较大的变化。膨润土的膨胀特性,包括膨胀指数、膨胀压力和膨胀潜力,已经进行了广泛研究。然而,膨润土的压缩性仍然受到关注不足,尽管它在沉降预测中起着至关重要的作用。膨润土的压缩性行为比常规粘土更为复杂,这主要是由于裂缝的产生和扩展。

为了弥补这一空白,本研究专注于相对较少研究的膨润土压缩指数预测任务,并引入了四个创新点:(i) 使用牛顿-拉夫森优化器优化的极限梯度提升(NRBO-XGBoost)开发先进模型;(ii) 建立全面的数据集和建模框架;(iii) 提出基于多层感知机(MLP)模型的简化预测方程;(iv) 通过工程案例研究验证所提出方法的实际适用性。首先,使用NRBO-XGBoost算法开发了一个先进的机器学习模型,其中XGBoost算法通过牛顿-拉夫森优化器(NRBO)进行优化。NRBO通过牛顿-拉夫森搜索规则(NRSR)提高搜索效率和加速收敛,通过陷阱避免算子(TAO)防止陷入局部最优。这些机制提高了参数调优,从而提升了模型的准确性、稳定性和泛化能力。与传统机器学习方法相比,NRBO-XGBoost(模型2)在捕捉复杂的非线性关系方面表现出更优的性能。

其次,建立了全面的建模框架。七种机器学习模型基于五种算法,使用包含238个膨润土样本的大型数据集进行训练和验证。其中包括两个使用NRBO-XGBoost(模型1和模型2),两个使用MLP(模型3和模型4),以及一个使用支持向量回归(SVR)(模型5)、极限学习机(ELM)(模型6)和多变量自适应回归样条(MARS)(模型7)。这种多样化的建模设置促进了比较评估,并突出了不同算法在预测膨润土压缩指数方面的相对有效性。

第三,提出了一种基于MLP算法(模型4)的简化预测方程。该方程允许使用基本的土壤特性方便地估算压缩指数,使其适用于日常的地质工程实践,而无需实施机器学习代码。第四,通过三个工程案例研究验证了所提出方法的实际适用性,这些案例研究展示了简化方程在现实条件下的适用性,并提供了额外的验证层次。与许多仅限于通过图形比较展示预测结果的机器学习研究不同,这些案例研究在模型开发与实际工程应用之间架起了桥梁。

为了确保模型训练的鲁棒性和预测性能评估的可靠性,将238个膨润土样本数据集随机划分为训练集和测试集,比例为80% - 20%。这是一种在机器学习中广泛采用且被接受的做法。这种划分策略确保了足够的数据用于模型训练,同时保留了足够的数据用于独立测试。

最近的研究表明,先进的AI方法,如基因表达编程和基于模糊逻辑的模型,可以有效捕捉非线性和复杂的行为。这些行为在工程实践中通常遇到,而传统经验方法则不适用。为了缓解这些限制,研究显示,深度神经网络架构可以显著提高土壤水力-力学特性预测的准确性,强调了模型设计和输入选择的重要性。同样,Wang和Vanapalli开发了一种结合PSO-SVR和MGGP的混合机器学习框架,用于估计压实细粒土的基质吸力,引入了新的参数“有效聚集度”,以更好地表示土壤结构。这些研究共同说明了先进的机器学习在土壤行为建模中的日益重要。本研究基于这些进展,探讨了混合机器学习方法在预测膨润土压缩指数中的应用。

为此,本研究采用五种不同的算法开发了七种模型,旨在平衡复杂性、预测能力和可解释性。这些算法包括(i)基于牛顿-拉夫森优化器优化的极限梯度提升(NRBO-XGBoost)、(ii)多层感知机(MLP)、(iii)支持向量机(SVM)、(iv)极限学习机(ELM)和(v)多变量自适应回归样条(MARS)。NRBO-XGBoost和MLP被选为主模型,因为它们具有先进的学习能力,而SVM、ELM和MARS被用作基准模型以进行比较分析。鉴于数据集的中等规模(238个样本),它们非常适合评估所提出先进模型的相对性能。

支持向量回归(SVR)是从支持向量机(SVM)派生的监督学习算法,基于统计学习理论。它专门设计用于回归任务,通过核函数将输入数据映射到高维特征空间。SVR通过最小化预测误差在指定的容忍范围内(即ε-不敏感损失函数)来构建最优回归函数。通过遵循结构风险最小化原则,SVR有效平衡了模型复杂性和预测准确性,增强了其在未见数据上的泛化能力。

极限学习机(ELM)是一种单隐藏层前馈神经网络,其训练过程与传统神经网络不同。在ELM中,隐藏层神经元的输入权重和偏置随机分配并保持固定,而仅输出权重通过简单的解析解(通常使用最小二乘法)确定。这一过程显著减少了训练时间,简化了学习算法,使其在中等规模数据集上对回归任务特别高效。

多变量自适应回归样条(MARS)是一种非参数回归技术,使用分段线性基函数建模复杂的非线性关系。MARS自动通过识别最优节点来划分输入空间,并在每个区域拟合单独的线性回归。该算法采用两步过程,包括前向选择(添加基函数以提高模型拟合)和后向消除(修剪模型以避免过拟合)。这种方法为捕捉数据中的变量相互作用和非线性提供了灵活的框架。

为了评估开发模型的预测性能,采用了四个常用的统计指标,即皮尔逊相关系数(r)、决定系数(R2)、均方根误差(RMSE)和归一化均方根误差(NRMSE)。r和R2评估预测值与测量值之间的相关性和拟合优度,而RMSE和NRMSE量化预测误差的大小。其中,NRMSE通过将RMSE归一化为观测数据的均值,提供了一个相对误差的测量,使不同数据集或单位之间的比较成为可能。

本研究的建模结果和讨论部分展示了七种预测模型在估算膨润土压缩指数方面的建模结果和性能分析。这些模型包括NRBO-XGBoost、MLP、SVR、ELM和MARS。研究考虑了两种不同的输入组合,以评估输入参数选择对模型性能的影响。分析集中在预测精度、泛化能力和模型简单性上。此外,还提供了详细的残差分析,以进一步评估每个模型的预测可靠性。

研究结果表明,尽管这些传统机器学习模型能够捕捉土壤特性与压缩指数之间的总体关系,但它们的预测精度和泛化能力相对有限,不如NRBO-XGBoost和MLP模型。因此,研究结果强调了使用先进的机器学习算法,如NRBO-XGBoost和MLP,来预测膨润土压缩指数的优势。更详细的误差分析将在下一部分中呈现。

为了提高最佳性能的NRBO-XGBoost模型(模型2)的可解释性,采用了由Lundberg和Lee提出的SHAP(SHapley Additive exPlanations)方法。SHAP框架有助于透明地解释模型行为,突出不同土壤参数的相对重要性。由于其经过验证的效率和适用于集成树模型的适当性,SHAP特别适合解释NRBO-XGBoost模型的预测。

研究结果表明,NRBO-XGBoost模型(模型2)在所有模型中表现最佳,其预测误差最小,且在整个I_p范围内保持稳定和可靠。相比之下,MLP模型(模型4)提供了良好的预测,但精度略有下降。而SVR、ELM和MARS模型显示出相当但有限的能力。

为了验证所提出模型的实际应用,基于MLP的模型4被进一步简化为一个显式的经验方程。这种方法允许从业者使用基本的土壤参数高效地估算压缩指数,而无需依赖复杂的计算工具或机器学习平台。通过提供直接计算方法,这种方法促进了模型在日常工程实践中的应用。

为了确保模型的可靠性,所有输入变量应在应用该方程之前使用最小-最大归一化方法进行归一化。归一化将数据缩放到[-1, 1]范围内,以确保与模型的开发过程保持一致,并维持预测精度。

通过三个案例研究,展示了该方程在不同现场条件和荷载情况下的适用性。这些案例研究结果表明,该方程在估算膨润土的压缩指数方面表现出色,从而得到与现场测量一致的沉降预测。研究结果表明,所提出的方程在实际工程应用中具有实用价值,能够一致且可靠地捕捉膨润土的压缩性行为,并支持在涉及膨润土的地质基础设施项目中的初步设计和沉降评估。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号