利用机器学习和PDP分析对可持续地质聚合物混凝土进行评估:关于强度预测的对比性研究

《Hybrid Advances》:Sustainable Geopolymer Concrete Evaluation Using Machine Learning and PDP Analysis: Comparative Insights into Strength Prediction

【字体: 时间:2025年10月23日 来源:Hybrid Advances CS3.9

编辑推荐:

  地聚物混凝土抗压强度预测中决策树模型最优,GGBS含量和养护温度对强度影响显著,部分依赖图分析揭示了材料配比与性能的非线性关系,机器学习模型有效支撑可持续混凝土设计。

  在面对全球日益严峻的环境挑战,尤其是由水泥生产引起的温室气体排放问题,科学家们正在积极寻找可持续的替代材料。其中,地质聚合物混凝土(Geopolymer Concrete, GPC)作为一种低碳、高强度的新型材料,正在成为普通波特兰水泥(Ordinary Portland Cement, OPC)的有力替代品。随着对材料性能预测需求的增加,机器学习(Machine Learning, ML)技术被广泛应用于GPC的强度预测。本研究通过比较决策树(Decision Tree, DT)、随机森林(Random Forest, RF)、人工神经网络(Artificial Neural Network, ANN)和线性回归(Linear Regression, LR)等四种常用的机器学习模型,评估其在预测GPC抗压强度方面的性能,并结合部分依赖图(Partial Dependence Plot, PDP)分析,揭示不同材料组分与养护条件对强度的影响机制。

### 研究背景与意义

传统水泥生产过程中,石灰石(CaCO?)在高温下转化为氧化钙(CaO),释放大量二氧化碳(CO?),这不仅加剧了全球变暖,还对生态环境造成了深远影响。因此,研究者和行业从业者开始探索低碳水泥材料,以满足全球减排标准。地质聚合物作为一种新型的无机聚合物,通过碱激发反应,由工业或天然的火山灰材料与碱性活化剂溶液(如氢氧化钠和硅酸钠)反应生成,能够显著降低碳足迹,同时提升材料的力学和化学性能。然而,GPC的性能高度依赖于前驱体组成、活化剂浓度、养护温度和混合比例的变化,使其行为相较于OPC更为复杂,因此需要借助机器学习等工具来实现准确预测。

本研究的意义在于,通过建立一个可解释的机器学习框架,不仅能够提高预测的准确性,还能帮助理解材料组成与性能之间的相互作用。通过PDP分析,可以揭示单个输入变量(如GGBS含量、硅酸钠浓度、养护温度等)对强度的贡献,从而支持可持续材料设计。这种结合数据科学与材料科学的方法,为未来材料优化提供了新的视角,同时推动了低碳材料在建筑领域的应用。

### 数据收集与预处理

为了确保模型预测的准确性,本研究构建了一个包含400个实验样本的数据集,涵盖了六个关键变量:粗骨料、细骨料、粒化高炉矿渣(Ground Granulated Blast Furnace Slag, GGBS)、硅酸钠、减水剂和养护温度。这些变量的选择基于其对强度发展的重要影响。数据集中的参数范围经过与基准研究对比,以确保对实际混合条件的全面覆盖。例如,GGBS的含量范围为100-500 kg/m3,硅酸钠的剂量为80-220 kg/m3,减水剂的含量为0.2-2.5 kg/m3,养护温度为20°C至90°C。数据集的建立不仅依赖于实验数据,还结合了广泛的文献回顾,以确保数据的多样性。

在数据处理过程中,所有输入特征均被标准化为[0,1]范围,以避免高尺度变量对模型训练的主导作用,并加快人工神经网络的收敛速度。异常值通过Z分数统计(|Z|>3)识别,并使用Winsorization方法进行处理。为了保持训练和测试数据集之间的比例一致性,采用分层抽样方法,确保养护温度和GGBS含量在训练和测试子集中均衡分布。这种数据处理方式提高了模型的泛化能力,减少了偏差。此外,描述性统计信息,包括所有输入和输出变量的最小值、最大值、平均值和标准差,也被列出,以增强结果的统计可信度。

### 模型构建与训练方法

本研究采用四种主流的机器学习模型:DT、RF、ANN和LR。这些模型均采用70/30的比例进行训练和测试,以确保模型在不同数据集上的适应性。在训练过程中,模型通过迭代优化过程,不断调整参数以最小化预测误差。为了提高模型的鲁棒性,采用10折交叉验证(10-Fold Cross-Validation, CV)和网格搜索(Grid Search)方法进行超参数优化。对于DT模型,优化后的参数包括最大深度(max_depth = 15)、最小样本分割(min_samples_split = 4)和最小样本叶节点(min_samples_leaf = 2)。对于RF模型,优化后的参数包括树的数量(n_estimators = 200)、最大深度(max_depth = 20)和特征选择方式(max_features = sqrt)。对于ANN模型,优化后的参数包括网络结构(6-64-32-1)、激活函数(ReLU)和优化器(Adam,学习率0.001)。为了防止过拟合,采用了Dropout(率0.1)和早停(patience = 20)机制。这些参数的优化结果被总结在表格中,以确保模型的准确性和泛化能力。

### 模型评估与性能比较

在模型评估中,采用了四种统计指标:R2、RMSE、MAE和MAPE。这些指标分别衡量模型的拟合度、绝对误差、平均绝对误差和平均绝对百分比误差。R2衡量模型对观测值方差的解释能力,而RMSE、MAE和MAPE则用于评估模型的误差水平。评估结果显示,DT模型在训练和测试阶段均表现出最佳性能,R2分别为0.97和0.94,RMSE和MAE分别为1.85-2.45 MPa和1.20-1.70 MPa,MAPE为0.058-0.118。相比之下,RF模型的R2为0.94,显示出良好的稳定性,但略低于DT。ANN模型虽然在训练阶段表现良好(R2 = 0.91),但在测试阶段表现出较差的泛化能力(R2 = 0.89),且误差较高(RMSE = 3.75-4.85 MPa,MAE = 2.55-3.25 MPa),表明其容易过拟合。LR模型则在所有指标中表现最差,R2分别为0.88和0.85,RMSE和MAE分别为4.10-5.25 MPa和3.10-3.95 MPa,显示出其在捕捉非线性关系方面的局限性。

### 部分依赖图分析

为了进一步提升模型的可解释性,本研究采用了部分依赖图(PDP)分析。PDP是一种模型无关的可视化工具,用于解释机器学习模型的预测结果。通过PDP分析,可以揭示单个输入变量对目标输出(抗压强度)的影响。结果表明,GGBS含量(Δ = 55 MPa)和养护温度(Δ = 23 MPa)是影响抗压强度的关键因素,其次是硅酸钠和减水剂。然而,过多的骨料含量(特别是粗骨料)会降低抗压强度。这些发现表明,材料的组成和养护条件在GPC的性能中起着决定性作用,因此需要优化混合设计以实现最佳性能。

PDP分析还揭示了变量之间的非线性关系。例如,随着GGBS含量的增加,抗压强度显著提升,这表明GGBS在促进钙铝硅酸盐水合物(C-A-S-H)胶体形成方面具有重要作用。而硅酸钠和减水剂的增加则提高了反应效率和流变性能,有助于形成均匀的地质聚合物结构。温度的变化也对强度产生显著影响,特别是在60-80°C范围内,抗压强度增加最多,达到约82%的提升。然而,超过这一范围的高温会导致微结构应力,从而降低强度。这些结果表明,材料的组成和养护条件在GPC的性能中起着关键作用,因此需要优化混合设计以实现最佳性能。

### 实际应用与未来展望

本研究的成果为GPC的可持续设计提供了有力支持。通过机器学习模型的预测,可以实现材料配比的优化,同时结合PDP分析,增强对材料性能的理解。DT和RF模型因其高准确性和良好的泛化能力,成为预测GPC性能的最佳选择。相比之下,ANN模型虽然在捕捉非线性关系方面表现出潜力,但需要进一步优化以防止过拟合。LR模型由于其线性假设的局限性,无法有效捕捉材料组成之间的复杂相互作用,因此在实际应用中表现不佳。

为了提高模型的预测能力和实际应用价值,未来的研究应进一步扩展数据集,整合耐久性指标,并开发混合机器学习与机理模型的框架。这些改进将有助于提高模型在实验室条件下的可靠性,并推动其在实际工程中的应用。此外,还可以探索其他可解释性技术,如SHAP(SHapley Additive exPlanations)和ALE(Accumulated Local Effects),以更好地处理相关变量并提供更清晰的特征交互理解。

综上所述,本研究不仅评估了不同机器学习模型在预测GPC抗压强度方面的性能,还通过PDP分析揭示了材料组成与养护条件对强度的影响机制。这些成果为未来材料优化提供了新的思路,并推动了低碳材料在建筑领域的应用。通过结合数据科学与材料科学,本研究为实现可持续基础设施建设提供了重要的理论和技术支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号