基于机器学习的生物质甘油单月桂酸酯合成优化:CatBoost模型在产率与转化率预测中的卓越性能
【字体:
大
中
小
】
时间:2025年10月13日
来源:Biomass and Bioenergy 5.8
编辑推荐:
本研究针对生物质甘油单月桂酸酯(GML)合成过程中操作参数优化难题,开发了多种机器学习模型预测产率和转化率。研究发现CatBoost模型表现最优,训练集R2达0.89,测试集对GML产率和GL转化率的R2分别为0.89和0.84,显著减少实验次数,为绿色化学过程优化提供新范式。
随着城市化进程加速和工业规模扩大,全球能源需求持续攀升,目前主要依赖煤炭、石油和天然气等传统化石燃料。然而,这些资源不仅面临快速枯竭的风险,还会带来严重的环境问题。在这样的背景下,生物柴油作为一种可持续的替代能源逐渐受到重视。生物柴油生产过程中会产生大量副产物生物甘油(GL),据统计,每生产10吨生物柴油就会伴随产生1至1.4吨的GL。随着生物柴油行业的快速发展,GL的产量也在急剧增加,预计将从2023年的49亿美元增长到2033年的59亿美元。中小型生物柴油企业面临着GL过剩的棘手问题,因此如何高效利用GL成为提高生物柴油行业利润 margins 和降低生物柴油价格的关键。
在GL的各种高值化利用途径中,生物甘油单月桂酸酯(GML)因其广泛的应用前景和潜在价值备受关注。GML是一种由中链脂肪酸单甘酯组成的多功能化学品,广泛应用于化妆品、医疗保健、制药、食品加工和过程工业等领域。特别是GML植入医疗器械因其具有抗菌、抗炎和抗真菌特性而受到青睐。全球GML市场规模预计将从2022年的7200万美元增长到2031年的1.21亿美元。
GML的生产可以通过多种反应路线实现,包括GL与月桂酸甲酯的酯交换、GL1,2-丙酮化物与月桂酸甲酯的酯交换以及月桂酸(LA)与GL的酯化反应。其中,LA与GL的酯化反应被认为是最可行的路线,其技术成熟度(TRL)达到8-9级。尽管已有研究致力于通过新型催化剂和优化工艺参数来提高GML产率和GL转化率,但由于操作参数(催化剂用量、GL与LA的摩尔比、反应温度和反应时间)之间存在复杂的关系,优化这些参数以生产GML仍然具有挑战性。
传统GML合成方法依赖于经验性的试错方法,导致选择性低、催化剂使用效率低下和能源需求高。因此,研究人员开始探索创新的建模方法,特别是机器学习(ML)和计算方法,作为理解工艺条件和探索输入关键工艺参数与输出特征之间隐藏关系的有效替代方案。
本研究的主要新颖之处在于开发了多种机器学习模型来预测GML产率和GL转化率。研究人员采用了随机森林(RF)、梯度提升决策树(GBDT)、极限梯度提升(XGB)、自适应提升(AdaBoost)和类别提升(CatBoost)五种机器学习模型来分析关键工艺参数之间的复杂关系。通过皮尔逊相关性分析发现,时间、催化剂剂量与输出特征(GML产率和GL转化率)之间存在强正相关关系,而温度和摩尔比对输出特征的影响则各不相同。
研究人员从Scopus和Google Scholar等科学数据库中收集了2010年至2024年间关于使用非均相催化剂通过LA与GL酯化合成GML的研究数据,共获得394个数据点。这些数据要么直接从研究论文中提取,要么使用PlotDigitizer软件从图表中获取。为了确保一致性,收集的数据进行了标准化处理:反应时间转换为小时,温度转换为开尔文,GL与LA的摩尔比转换为整数或浮点值。
在模型训练过程中,数据集被分为两部分:80%用于训练,20%用于测试。采用k折交叉验证来防止过拟合,提高预测的准确性和可靠性。通过网格搜索方法进行超参数调优,以确定最佳参数配置。性能评估指标包括决定系数(R2)、均方误差(MSE)、均方根误差(RMSE)和平均绝对误差(MAE)。
研究结果显示,CatBoost模型在预测GML产率和GL转化率方面表现最为出色。在训练过程中,CatBoost对产率和转化率的R2值均达到0.89;在测试过程中,对GML产率的R2值为0.89,对GL转化率的R2值为0.84。其他模型如AdaBoost也表现出较好的预测性能,但CatBoost在准确性和误差指标方面均优于其他模型。
敏感性分析通过SHAP(Shapley Additive Explanations)分析进行,揭示了各输入参数对模型预测的影响程度。反应时间被证明是最关键的因素,SHAP值从0小时时的约-20单调增加到20小时时的+25-30,证实了延长持续时间显著增强了正向酯化动力学。温度表现出明显的非线性效应,在410-420K时SHAP值增加至约+10,表明碰撞频率提高和酯化速率增强;但在>430K时,SHAP值下降至负值范围(-5至-10),表明催化位点发生热失活、副反应开始或产率受到平衡驱动抑制。
催化剂用量表现出积极但渐近的效果。SHAP值从1wt%时的约-10增加到3-4wt%时的约+12,之后影响趋于平稳甚至转为负值。这一性能表明过高的催化剂浓度会导致孔阻塞、扩散阻力或颗粒团聚,从而降低增加表面酸度的益处。GL/LA的摩尔比揭示了一个非单调趋势。在低比率(1-2)时,SHAP值保持中性至略微正值;在中间比率(~3)时,SHAP值急剧下降至≤-10,表明化学计量平衡不理想和效率降低;在较高摩尔比(5-6)时,SHAP值部分转向中性,归因于过量GL引入稀释并降低了有效反应物浓度。
模型验证使用来自先前文献的独立实验数据进行。结果表明,ML模型预测值与实验值之间存在高度一致性,GML产率和GL转化率的预测值与实际数据之间的偏差保持在±0.5%以内,证明了模型的高准确性。
尽管机器学习方法展示了高预测准确性和减少实验工作量的潜力,但研究也承认了几个局限性。首先,模型的泛化能力本质上取决于训练数据的多样性和质量。如果训练数据集在完整参数空间内缺乏足够的代表性,模型可能对未见条件产生不可靠的预测。此外,机器学习模型作为数据驱动的黑箱,可能并不总是捕捉到底层的物理化学机制,限制了可解释性。预测的鲁棒性也可能受到过拟合的影响,特别是在处理小数据集时。
从计算角度来看,模型开发特别是在超参数调优和交叉验证过程中可能是资源密集型的。虽然不算禁止性成本,但在扩展到更大、更复杂的系统或集成实时过程反馈时,这种成本可能变得显著。
研究的核心发现表明,CatBoost和AdaBoost成为预测和优化GML生产的最有效模型。这些模型减少了对大量实验试验的需求,提高了过程效率、可靠性和成本效益,并为生产机制提供了有价值的见解。此外,本研究为研究人员选择和优化GML生产工艺参数提供了协助,并为类似化学合成过程的潜在机制提供了技术见解。
未来研究应专注于扩大数据集以涵盖更广泛的反应条件、催化剂和原料材料,这将允许对模型在不同化学系统中的泛化能力和可扩展性进行更全面的评估。应用先进的机器学习算法,如深度学习或集成方法,可以进一步提高预测准确性,特别是对于表现出复杂非线性行为或高维输入空间的系统。整合实时实验或过程数据可以促进自适应机器学习模型的开发,能够提供动态优化和控制,这在工业规模操作中将非常有益。本研究开发的方法和框架可以扩展到其他化学生产过程,使得机器学习在化学工程各个领域的工艺优化中得到广泛应用。
Beyond laboratory-scale validation, future studies should focus on scaling up the optimized conditions to pilot-scale, assessing the industrial feasibility and economic viability of GML production. Multi-objective optimization frameworks should also be explored to balance yield maximization with cost-effectiveness and sustainability, addressing both technical and economic challenges. The integration of environmental impact assessments, including life cycle analysis with ML-based modeling can provide a comprehensive evaluation of the sustainability of GML production from biomass-derived feedstocks.
最终研究表明,CatBoost模型在预测GML产率和GL转化率方面表现出最高准确性,具有高R2值和低误差指标。时间和催化剂剂量是对GML产率影响最大的因素,而反应时间、反应温度和催化剂剂量是对GL转化率影响最大的因素。这些机器学习模型显著减少了对广泛实验试验的需求,提高了过程效率、可靠性和成本效益,为生物质衍生GML生产的可持续和可扩展生产提供了变革性的进步。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号