一种用于预测含有阿拉伯胶和玉米芯灰的高强度混凝土抗压强度的新机器学习方法

《Hygiene and Environmental Health Advances》:A novel machine learning approach for predicting the compressive strength of high-strength concrete containing gum Arabic and corn cob ash

【字体: 时间:2025年11月15日 来源:Hygiene and Environmental Health Advances 2.7

编辑推荐:

  高强度混凝土中含玉米秸秆灰烬(CCA)和阿拉伯胶(GA)的抗压强度预测研究采用人工神经网络(ANN)、极端梯度提升(XGBoost)、k近邻(KNN)和堆叠集成模型进行建模,结合SHAP解释和替代模型分析。实验表明XGBoost训练阶段MAE最低(0.292 MPa),ANN测试阶段R2最高(0.8561),SHAP分析显示年龄、GA和水泥是关键影响因素。替代模型分析表明深度为8的决策树(DT)最佳。

  本研究旨在探索高强混凝土中使用玉米芯灰(CCA)和阿拉伯胶(GA)的压缩强度预测方法。随着建筑行业对可持续材料的需求日益增加,利用废料生产替代性材料成为研究热点。CCA和GA作为潜在的替代材料,不仅有助于减少碳排放,还能改善混凝土的性能。然而,现有的预测方法在处理这些材料时面临挑战,尤其是其复杂的材料特性以及影响压缩强度的多因素交互作用。因此,本研究引入了多种机器学习算法,包括人工神经网络(ANN)、极端梯度提升(XGBoost)、K近邻(KNN)和堆叠集成模型,以提高预测精度并增强模型的可解释性。

研究首先介绍了高强混凝土的复杂行为特性,如混凝土的年龄、养护条件、掺合料和外加剂等。传统的强度测试方法需要大量人力和时间,并且只有在养护完成后才能评估质量。因此,开发一种高效的预测模型,可以显著提高混凝土设计和质量控制的效率。本研究通过使用机器学习模型,结合多种分析方法,如泰勒图(Taylor diagram)、SHAP分析、代理模型(surrogate model)和残差-杠杆图(residual-leverage plot),对模型的性能进行了全面评估,并揭示了影响压缩强度的关键因素。

在材料选择方面,研究使用了符合国际标准的波特兰水泥(CEM I/42.5N),并从肯尼亚获取了阿拉伯胶。玉米芯则从西肯尼亚地区收集,经过破碎和预处理后,用于实验。细骨料和粗骨料分别来自马查科斯和内罗毕,而超级塑化剂则由Sika(K)有限公司提供。所有实验材料均通过X射线荧光(XRF)分析和扫描电子显微镜(SEM)观察,以确保其化学成分和物理性质符合实验要求。

在实验方法部分,研究采用了66种不同的混凝土配比,包括传统和创新的混合材料。通过将这些混合材料的配比数据输入机器学习模型,预测其压缩强度。为了验证模型的准确性,研究对混凝土进行了不同龄期(3、7、14、28、56和90天)的抗压强度测试。所有实验数据均通过统一的测试方法获取,并进行了标准化处理,以提高模型训练和预测的效率。

在模型构建过程中,研究使用了四种机器学习模型:ANN、XGBoost、KNN和堆叠集成模型。其中,ANN模型的结构包括四个隐藏层,每层分别有128、64、32和16个神经元。XGBoost模型则采用了200个决策树,并通过调整树的深度和学习率等参数来优化模型的性能。KNN模型使用了5个最近邻,而堆叠集成模型则结合了岭回归、XGBoost回归和KNN回归三种基础模型,并通过贝叶斯岭回归作为最终模型进行预测。这些模型的性能评估指标包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和决定系数(R2)等,以全面评估模型的预测能力。

在模型性能比较中,XGBoost模型在训练阶段表现最佳,其平均绝对误差(MAE)仅为0.292 MPa。而在测试阶段,ANN模型则表现最佳,显示出较高的预测精度。这表明不同的模型在训练和测试阶段可能表现出不同的性能,因此需要综合考虑这些指标。此外,研究还通过泰勒图对多个模型的输出进行了可视化比较,该图展示了模型与实际数据之间的相关系数、RMSE和标准差之间的关系,为模型选择提供了直观依据。

SHAP分析被用于揭示模型预测的关键因素。研究发现,混凝土的年龄是影响模型预测的最关键参数,其次是GA和水泥。SHAP结果表明,增加这些关键参数的值可以显著提高模型的预测能力。此外,研究还通过代理模型和累积局部效应(ALE)分析,对模型的特征重要性进行了进一步探讨。代理模型在处理复杂模型的简化解释方面表现出色,而ALE分析则提供了对输入变量如何影响预测的全局解释。

在模型的可解释性方面,研究采用了一系列统计方法,如Cook’s距离、残差-杠杆图和预测值分析。这些方法有助于识别模型中的异常点,并评估模型的稳健性和准确性。例如,Cook’s距离用于衡量单个观测值对模型预测的影响,而残差-杠杆图则展示了模型预测与实际值之间的偏差。研究发现,所有模型在训练和测试阶段均表现出较高的预测能力,且没有明显的异常值影响模型的性能。

在统计参数评估方面,研究计算了多个指标,包括R2、MAE、RMSE、MAPE、MSLE、解释方差、均方误差、归一化均方根误差(NRMSE)和平均绝对缩放误差(MASE)。这些指标提供了关于模型预测准确性的多维度信息。其中,XGBoost模型在训练阶段表现出最高的R2值和最低的RMSE值,而在测试阶段,ANN模型的预测性能优于其他模型。这表明不同的模型在训练和测试阶段的性能存在差异,需要结合多个指标进行综合评估。

在特征重要性分析中,研究发现年龄、GA和水泥是影响混凝土压缩强度的最关键因素。而其他变量如水、粗骨料和细骨料由于其含量保持不变,对模型预测的影响较小。SHAP分析和置换特征重要性(PFI)方法进一步验证了这一结论,表明这些变量对模型预测的贡献有限。此外,研究还发现,随着决策树深度的增加,R2值显著提高,但计算复杂性也随之增加,因此需要在模型复杂度和预测准确性之间进行权衡。

通过全球代理模型分析,研究确认了决策树(DT)作为最佳代理模型,其R2值达到0.971,且RMSE和ShapGAD值均较低。这一结果表明,DT模型在预测高强混凝土性能方面具有较高的准确性和稳定性。此外,研究还发现,DT模型在特征重要性上表现出与其他模型不同的趋势,这可能与其预测机制有关。

在模型的可解释性方面,研究采用了一系列方法,如SHAP分析、ALE分析和Cook’s距离分析。这些方法不仅帮助研究人员理解模型的预测过程,还提供了对模型决策的透明度。例如,SHAP分析表明,年龄、GA和水泥对模型预测的影响最大,而其他变量如水和骨料的影响较小。ALE分析则进一步揭示了不同特征对模型预测的累积影响,表明这些特征在不同区间内对模型输出有不同的贡献。

总体而言,本研究通过引入多种机器学习模型,成功预测了高强混凝土中CCA和GA的压缩强度。XGBoost模型在训练阶段表现最佳,而ANN模型在测试阶段表现出更高的预测能力。此外,研究还通过泰勒图、SHAP分析和代理模型,对模型的性能进行了多维度评估,揭示了影响混凝土压缩强度的关键因素。这些发现不仅为高强混凝土的设计和质量控制提供了新的预测方法,也为可持续建筑材料的应用提供了理论支持。

本研究还指出了当前模型可能面临的挑战,如过拟合问题。这可能源于模型的复杂性,使得模型在训练阶段表现良好,但在测试阶段出现性能下降。因此,未来的研究需要进一步优化模型的超参数,以提高其泛化能力。此外,研究还建议对高强混凝土的生命周期可持续性评估(LCSA)进行深入探讨,以进一步推动可持续建筑材料的应用和发展。

综上所述,本研究为高强混凝土中使用CCA和GA的压缩强度预测提供了新的视角。通过结合多种机器学习模型和统计分析方法,研究不仅提高了预测精度,还增强了模型的可解释性,为工程实践中的混凝土设计和质量控制提供了有力支持。同时,研究也强调了未来在模型优化和可持续性评估方面的研究方向,以进一步推动绿色建筑材料的发展和应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号