基于多种机器学习模型的高性能混凝土抗压强度预测
《Frontiers in Materials》:Prediction of compressive strength of high-performance concrete based on multiple machine learning models
【字体:
大
中
小
】
时间:2025年10月09日
来源:Frontiers in Materials 2.9
编辑推荐:
高强混凝土(HPC)抗压强度预测研究采用机器学习模型(个体与集成学习),基于含工业固废的HPC数据库(1,030样本,8参数),通过k-fold交叉验证评估R2(0.95)、MAE(2.51 MPa)、RMSE(3.57 MPa)。结果表明,集成模型HHO-XGBoost性能最优,较最佳个体模型DT提升R2 4%、MAE 7.5%、RMSE 29.4%,为隧道、海洋结构等工程提供可靠预测工具并促进固废利用。
高性能混凝土(HPC)因其卓越的综合性能,被广泛应用于隧道工程、大跨度桥梁以及一些特殊工程领域。随着科技的进步,HPC正朝着绿色可持续方向发展,通过引入工业固体废弃物作为辅助胶凝材料来实现这一目标。本研究构建了多种机器学习模型(包括个体学习器和集成学习器),以预测HPC的抗压强度。所采用的数据库包含八个参数,包括水泥、高炉矿渣、粉煤灰、水、减水剂、粗骨料、细骨料和HPC的龄期,共计1030个数据样本。为了评估模型的性能,研究使用了决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)作为评价指标,并通过10折交叉验证方法验证了模型的鲁棒性。研究结果表明,在个体学习器中,决策树(DT)模型具有最佳的预测性能;而在集成学习器中,Harris Hawks Optimization-XGBoost(HHO-XGB)模型表现最优。集成学习进一步提升了个体学习器的预测能力:与最佳个体学习器DT相比,R2值分别从0.91提升至0.94(随机森林RF)和0.95(HHO-XGB);MAE分别从2.72 MPa降低至2.69 MPa(RF)和2.51 MPa(HHO-XGB);RMSE分别从5.01 MPa下降至4.01 MPa(RF)和3.57 MPa(HHO-XGB)。此外,构建的模型通过10折交叉验证进行了验证,显示出较强的泛化能力。HHO-XGB模型的高预测精度可以为优化混合设计提供更可靠的依据,从而提高结构安全性并减少在关键应用如隧道衬砌和海洋结构中的材料成本超支。
### 高性能混凝土的背景
高性能混凝土(HPC)作为重大工程项目的主流工程材料,被广泛应用于大跨度桥梁、重要交通工程、地下工程和隧道工程等领域。HPC通常由胶凝材料、骨料(或仅使用骨料)、水以及必要时的添加剂按照特定比例混合而成。胶凝材料是HPC的重要组成部分,常用的胶凝材料是波特兰水泥。波特兰水泥的生产过程不仅消耗大量能源,还会产生显著的二氧化碳排放,其排放量约占人为排放总量的5%–7%。目前,波特兰水泥的年产量约为4亿吨,一些学者预测到2060年,其产量可能达到6亿吨。由于对气候变化和环境保护的重视,各国均制定了严格的排放标准。为了减少HPC中对波特兰水泥的依赖并降低有害气体的排放,亟需积极寻找波特兰水泥的替代品,以减少能耗和污染,同时确保工程性能。目前,工业固体废弃物如粉煤灰和高炉矿渣,以及辅助胶凝材料如石灰,常被用于替代波特兰水泥,从而提高工业废弃物的再利用率。
### 抗压强度测试的挑战
HPC的抗压强度(CS)测试通常是在按照特定混合比例制备样品后,经过一段时间的养护,再进行测试。这一过程复杂且耗时,因此许多研究开发了预测模型作为有效的替代方案。早期研究主要依赖于经验方法和统计方法。例如,Bhanja和Sengupta(2002)基于超过300次测试的强度比进行统计分析,建立了CS的数学模型。虽然这种方法具有开创性,但其在捕捉混合比例与强度之间的复杂非线性关系及交互作用方面存在局限,尤其是在引入如工业固体废弃物等复杂材料时更为明显。机制研究进一步验证了这些关系的复杂性。研究表明,粉煤灰和矿渣等工业固体废弃物的掺入会显著改变混凝土的水化动力学和早期性能。这些研究说明,HPC的抗压强度受多个相互依赖因素的影响,使得使用简单的线性关系或回归模型进行预测变得困难。
### 机器学习方法的应用
为了解决这一挑战,许多学者开始关注机器学习方法,因其能够从数据中学习复杂的非线性关系。例如,Peng和Unluer(2022)成功地将机器学习技术应用于预测地质聚合物HPC的力学性能,而Farooq等人(2021)发现集成模型如随机森林可以显著降低预测误差。近年来,研究者们不断优化和改进这些机器学习模型。例如,Xie等人(2025)提出了一种增强型贝叶斯高斯过程回归方法,并优化了核函数,取得了优异的预测效果。总体而言,尽管传统经验模型为研究提供了基础,但在处理复杂性方面存在一定局限。机制研究强调了使用先进模型技术的必要性。虽然机器学习提供了有效的解决方案,但在选择和构建最适合的模型方面仍需关注。因此,本研究旨在系统构建和评估个体模型与集成学习模型,以实现对含有工业固体废弃物的HPC抗压强度的准确预测,并为类似的预测研究提供参考。
### 数据库与性能评估
本研究使用的HPC抗压强度数据来源于UC Irvine机器学习库中的相关数据集。该数据库包含1030个数据点,涵盖了抗压强度、水泥、细骨料、粗骨料、高炉矿渣、粉煤灰、水、减水剂和HPC龄期等参数。各种参数的统计信息在表1中有所展示。为了确保模型在工程应用中的科学性和实用性,研究将数据库划分为训练集和测试集。训练集包含721个随机数据点,占总数据集的70%;测试集则由剩余的309个数据点组成。此外,本研究采用以下统计评估指标来衡量模型的预测性能:决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)。这些指标的具体表达式如公式(1)、(2)和(3)所示。
为了进一步验证模型的泛化能力,研究采用了k折交叉验证方法。尽管上述随机划分数据集的方法在一定程度上提高了模型可靠性的证据,但评估结果仍可能受到数据划分方法的影响,缺乏随机性可能影响模型评估的稳定性。k折交叉验证通过将数据集随机划分为k个大小相近的子集,能够更全面地反映模型在不同数据子集上的表现。在这一过程中,k-1个子集作为训练集,剩下的一个子集作为测试集,通过重复这一过程10次,最终使用平均值作为模型预测性能的评估指标。Kohavi(1995)的研究表明,使用10折交叉验证可以得到可靠的方差。因此,本研究选择10折交叉验证,将训练集划分为10个子集,每次使用其中9个子集建立多元分布模型,用剩下的子集验证模型的预测性能,并重复10次,最终使用平均值作为模型预测性能的评估值。
### 方法论
目前,机器学习方法已被广泛应用于各个科学领域。基于数据驱动的特性,机器学习突破了传统方法依赖人工设计逻辑和简化假设的局限,具有较强的适应性和泛化能力。在材料科学领域,该技术通常用于预测和解释材料特性。本研究聚焦于预测掺入工业固体废弃物的HPC的抗压强度,并采用多种机器学习方法进行研究。研究中使用的机器学习方法包括个体学习器和集成学习器。个体学习器包括决策树(DT)模型、支持向量机(SVM)模型和人工神经网络(ANN)模型,而集成学习器则包括随机森林(RF)模型和Harris Hawks Optimization-XGBoost(HHO-XGB)模型。
#### 决策树模型
决策树模型模拟了人类逐步决策的逻辑,将复杂问题分解为一系列简单的判断问题。最终的分析和解决方案过程类似于一棵倒置的树,因此得名。DT模型在机器学习方法中相对直观,其应用也较为广泛。该模型主要由四个基本结构组成:根节点、内部节点、分支和叶节点。根节点是输入节点,内部节点连接分支,叶节点是最终的输出节点。因此,DT模型的核心目标是使用内部节点之间的特定函数,使得分割后的子数据集具有更高的“纯度”,即使得子数据集中的数据属于同一类别或具有更集中的值。
在本研究中,由于预测HPC的抗压强度不需要进行分类,因此该预测任务被定义为回归任务。在预测HPC抗压强度的背景下,模型根据八个输入变量对数据集进行分割。模型通过优化分割标准,确定每个变量的最优分割点,以最小化预测值与实际抗压强度值之间的误差。最终,每个子数据集被持续分割和划分,直到形成一个能够预测目标变量的树。
#### 支持向量机模型
支持向量机模型基于统计学习理论。Cortes和Vapnik(1995)首次提出了“支持向量”的概念,并在1995年将其应用于支持向量机模型。该模型最初用于解决线性分类问题,随着研究的深入,引入核函数后,可以将低维非线性数据映射到高维空间,从而实现数据在该高维空间中的线性可分性。同时,Vapnik等人(1996)对支持向量机模型进行了改进,提出了支持向量回归模型,该模型将应用范围从解决分类问题扩展到了回归问题。本研究基于HPC的混合比例预测其抗压强度,该任务属于回归问题。使用SVM模型解决回归问题的过程如下。
首先,对于SVM模型,无论是分类还是回归问题,其核心目标都是找到超平面。然而,对于回归问题,需要在找到超平面之前定义一个不敏感损失函数。具体的公式如公式(4)所示。其中,?被称为误差容忍度,是不敏感损失函数的核心参数。
超平面优化步骤的目标是尽可能多地将样本数据点拟合在?区间内,同时为了避免过拟合,需要保持回归函数尽可能简单,以降低模型复杂度。这一双重目标由以下公式表达:
$$
\text{min} \frac{1}{2} \|m\|^2 + C \sum_{i=1}^{n} (\xi_i + \xi_i^*)
$$
其中,$ n $ 是样本总数,$ p $ 是权重向量,$ q $ 是偏置项,$ \xi_i $ 和 $ \xi_i^* $ 是松弛变量,$ C $ 是惩罚参数。
由于HPC抗压强度的预测是一个非线性问题,因此需要引入核函数,将低维的非线性关系转换为高维的线性关系。核函数的定义如公式(7)所示。上述步骤涉及多个变量,解决过程较为复杂,因此可以将其转换为对偶问题进行求解,具体如公式(8)所示。
#### 人工神经网络模型
人工神经网络模型的发展基于对人类大脑信息处理的研究,通过模拟人类大脑在信息处理过程中神经元的协作合作来构建模型。ANN模型主要由输入层、隐藏层和输出层组成,神经元连接这三个层次。整个ANN模型的框架相对容易理解,模型构建完成后,可以通过简单的“输入-输出”过程解决各种问题。然而,在模型构建过程中,需要根据问题的复杂性合理确定隐藏层的数量和神经元数量。根据本研究的分析,单隐藏层可以有效地预测HPC的抗压强度。此外,激活函数也是ANN模型的重要组成部分。大多数现实世界的问题是非线性的,而激活函数通过在神经元输入和输出之间建立联系,引入非线性关系,从而使ANN模型具备处理非线性问题的能力。在本研究中,Sigmoid函数被用作模型的激活函数。
本研究在ANN模型的训练过程中采用了贝叶斯正则化算法。该方法利用贝叶斯定理更新权重,并同时估计正则化参数,从而有效控制神经网络的复杂度,降低过拟合的风险。
#### 随机森林模型
随机森林(Random Forest)是一种在机器学习领域广泛应用的集成学习模型,其基本结构由多个决策树组成。RF模型具有稳定性和强泛化能力,因此被广泛应用于各种分类和回归任务,也受到土木工程材料研究的广泛关注。在RF模型中,“森林”指的是由多个决策树组成的整体框架,而“随机”体现在两个方面:随机抽样和随机选择特征。根据本研究的分析,模型构建分为以下几个步骤:
1. 每个树从原始数据库中随机抽样,抽取的样本数量为原始数据的三分之二,这一过程称为“袋外数据”(out-of-bag data),可以用于模型评估。
2. 在分割树的每个节点时,算法从原始特征中随机选择部分特征,以实现最优的节点分割。对于回归任务,通常会选择原始特征的三分之一作为随机特征子集。
3. 每棵树基于上述随机抽样和随机特征独立生长,直到叶节点达到足够的纯度或节点中的样本数量减少到1。
4. 最终,在回归任务中,通过所有个体树的预测值的平均值来得出最终的预测结果。
#### XGBoost模型与HHO算法的结合
极端梯度提升(XGBoost)也是一种基于决策树的集成学习模型,与随机森林不同,XGBoost基于提升(Boosting)框架进行构建。XGBoost通过迭代训练弱学习器,并最终将它们整合为一个强学习器。其具体思路是:第一棵树直接拟合样本的真实值;第二棵树拟合第一棵树的预测误差;每棵后续的新树拟合所有前序树的累积误差,以最小化累积误差。最终,所有树的预测结果被线性加权并求和,以完成对目标参数的预测。
与随机森林不同,XGBoost依赖于诸如正则化参数、学习率和树结构参数等来控制过拟合。因此,本研究引入了Harris Hawks Optimization(HHO)算法来优化上述参数,进一步提升XGBoost模型的性能。
HHO算法是一种元启发式算法,通过模拟Harris鹰群的捕猎行为来优化模型参数。该算法包括两个关键阶段:全局探索阶段和局部利用阶段。HHO算法能够在预设参数范围内自动搜索最优参数组合,从而克服传统参数调优方法的局限。HHO算法的优化过程如图2所示。
### 模型结果分析
基于对数据集的分析以及前文所介绍的机器学习模型,本章将对不同学习器在预测HPC抗压强度方面的性能进行详细分析。这包括测量值与预测值的比较分析、模型预测误差的分析以及通过10折交叉验证进行的模型分析。同时,基于上述分析结果,本章将进一步比较不同学习器的性能,包括个体学习器之间的比较、集成学习器之间的比较,以及个体学习器与集成学习器之间的比较。
#### 模型预测结果分析
本研究使用基于个体学习器的模型(包括DT模型、SVM模型和ANN模型)以及基于集成学习器的模型(包括RF模型和HHO-XGB模型)来预测掺入工业固体废弃物的HPC的抗压强度。在这些步骤中,数据集中的1030个数据点被随机划分为训练集(721个数据点)和测试集(309个数据点)。构建的机器学习模型可以使用R2、MAE和RMSE进行评估。测试集上的模型性能评估结果如表2所示,图2展示了不同模型的预测值与实际值之间的关系,并且还展示了模型的训练结果和测试结果。
从图3可以看出,子图(a)、(b)和(c)分别对应于个体学习器,而子图(d)和(e)对应于集成学习器。在个体学习器中,DT模型表现出更好的预测性能,其训练集的R2值为0.93,测试集的R2值为0.91。根据表2,DT模型的MAE为2.72 MPa,RMSE为5.01 MPa,表明个体学习器的预测精度较高。SVM模型的性能略低于DT模型,但两种模型在测试集上的R2值均有所下降。尽管ANN模型的预测性能相对其他两个个体学习器较弱,但在测试集上的各种指标变化较小,显示出一定的鲁棒性。在集成学习器中,HHO-XGB模型表现出更优的预测性能,其训练集和测试集的R2值分别为0.95。同样,根据表2,HHO-XGB模型的MAE为2.51 MPa,RMSE为3.57 MPa,显示出较高的预测精度和鲁棒性。
此外,基于决策树的集成学习器(包括RF模型和HHO-XGB模型)的预测性能优于个体学习器。其中,与最佳个体学习器DT相比,RF模型的R2值从0.91提升至0.94,HHO-XGB模型的R2值从0.91提升至0.95。MAE分别从2.72 MPa降低至2.69 MPa(RF)和2.51 MPa(HHO-XGB),RMSE分别从5.01 MPa降低至4.01 MPa(RF)和3.57 MPa(HHO-XGB)。集成学习器在预测目标参数时表现出较强的预测值与测量值之间的相关性,表明集成学习策略能够有效提升预测性能。
#### 模型预测误差分析
通过测试集分析了每个学习模型的预测误差,并绘制了误差分布图(图4)。表3还展示了不同模型在测试集上的误差分布统计。
从表3和图4可以看出,在构建的个体学习模型中,DT模型的预测误差最大,最大值为38.22 MPa,最小值为-33.00 MPa。SVM模型的误差标准差与DT模型相似,表明这两种模型在预测过程中误差分布的离散程度一致,但DT模型在极端误差值上更大。在本研究中使用的个体学习器中,ANN模型的预测误差分布相对较窄,最大预测误差为20.01 MPa,最小预测误差为-19.39 MPa。然而,该模型的误差标准差为5.24 MPa,预测误差数据较为分散。
与个体学习器相比,集成学习器的误差分布更为稳定。尽管RF模型仍包含少量极端值,但其误差值大多集中在个体学习器的误差值范围内,数据波动较小。HHO-XGB模型进一步减少了误差波动,并最小化了极端误差值的出现。如图4e所示,该模型的误差分布图具有最小的峰谷幅度,正负误差表现出平缓的变化,没有剧烈波动。在本研究构建的预测模型中,该模型表现出优异的稳定性和预测精度。
#### 交叉验证分析
为了确保本研究构建的模型在科学性和工程应用上的合理性,有必要对其预测准确性进行评估。此外,为了保持工程应用的实用性,并模拟实际工程数据的随机性和复杂性,还需要通过调整训练数据集的划分方式进一步测试模型的预测性能。在此阶段,采用了前述的10折交叉验证方法。具体来说,将数据集随机划分为10个子集,其中9个子集用于训练CS预测模型,剩下的一个子集用于模型验证和统计指标的计算。上述步骤重复10次,最终取统计指标的平均值作为模型的验证结果。最终,10折交叉验证结果如图5所示。
在进行10折交叉验证时,使用了R2、MAE和RMSE作为评估指标。从图5可以看出,所有构建的模型均表现出良好的性能:尽管10折交叉验证的MAE和RMSE结果存在波动,但模型的预测精度仍然相对较高。从图5a和5b可以看出,预测模型的最大R2值为0.96,最小R2值为0.87,其平均R2值分别为0.92、0.92、0.91、0.87、0.95和0.95。从图5c和5d可以看出,预测模型的MAE范围从2.15到4.30 MPa,其平均MAE值分别为2.66、3.36、3.85、2.73和2.54 MPa。从图5e和5f可以看出,预测模型的RMSE范围从3.11到5.73 MPa,其平均RMSE值分别为4.55、4.57、5.07、3.86和3.62 MPa。通过10折交叉验证分析,发现所构建的模型表现出良好的鲁棒性和有效性。值得注意的是,与本章前两节的分析结果一致,尽管本研究构建的预测模型均表现出良好的预测性能,但个体学习器在预测HPC抗压强度时表现出一定的波动性,而集成学习器则显示出一定的稳定性。其中,HHO-XGB模型在所有构建的预测模型中表现出最高的预测精度和稳定性。
### 讨论
从表2和表3可以看出,与本研究构建的个体学习器相比,集成学习器表现出更准确的预测结果和更强的鲁棒性。从图4和图5可以看出,通过整合多个独立的个体学习器,集成学习器能够有效减少训练数据抽样偏差和噪声干扰等随机因素的影响,从而显著提升模型的预测性能。具体而言,DT模型是本研究中表现较好的个体学习器之一,但在训练和测试过程中仍然表现出较大的极端预测误差和较大的波动性。相比之下,基于决策树的集成学习器,包括采用Bagging策略的RF模型和采用Boosting策略的HHO-XGB模型,均在一定程度上优化了预测误差和预测稳定性。与DT模型的MAE(2.72 MPa)和RMSE(5.01 MPa)相比,两种集成学习器的MAE分别降至2.69 MPa和2.51 MPa,RMSE分别降至4.01 MPa和3.57 MPa。
总体而言,通过Bagging和Boosting方法整合构建的个体学习器,能够有效提升模型的预测性能。HHO-XGB模型通过HHO算法的优化,表现出更高的预测精度和稳定性。
### 结论
本研究聚焦于掺入工业固体废弃物的HPC的抗压强度。通过采用机器学习方法,将所使用的机器学习模型分为个体学习器和集成学习器,用于对HPC的抗压强度数据进行建模和分析。得出的主要结论如下:
1. 算法的选择从根本上影响模型的性能。在个体学习器中,DT模型表现出较强的预测能力,其R2值为0.91,MAE值为2.72 MPa,RMSE值为5.01 MPa。SVM模型和ANN模型的性能相对较低。这一层次结构强调了算法选择的重要性,即使在相同的类别中。此外,HHO-XGB模型的成功构建表明,元启发式优化可以有效调整集成模型,从而进一步提升模型的预测精度和稳定性。
2. 相较于个体学习器,采用Bagging和Boosting方法的集成学习器能够有效提高预测精度和稳定性。具体而言,与最佳个体学习器DT相比,RF模型的R2值从0.91提升至0.94,HHO-XGB模型的R2值从0.91提升至0.95。MAE分别从2.72 MPa降至2.69 MPa(RF)和2.51 MPa(HHO-XGB)。RMSE分别从5.01 MPa降至4.01 MPa(RF)和3.57 MPa(HHO-XGB)。
3. 所构建的预测模型通过了k折交叉验证的测试,显示出良好的鲁棒性和有效性。在构建的模型中,HHO-XGB模型表现出全局最优性能,为预测HPC的抗压强度提供了有效的数据驱动解决方案,有助于更高效和可持续地利用工业固体废弃物,并在诸如隧道和海洋结构等关键工程应用中节省材料成本。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号