关于构建混合算法以预测生物炭产量作为热解参数的函数

《Energy Conversion and Management-X》:On the construction of hybrid algorithms to predict biochar yield as a function of pyrolysis parameters

【字体: 时间:2026年06月08日 来源:Energy Conversion and Management-X 7.6

编辑推荐:

  生物炭产量预测对于调整热解进程和推进合理的生物质利用至关重要。本研究开发了一个统一的、可解释的框架,该框架将梯度提升决策树(GBDT)与元启发式优化算法——蚁群优化(ACO)、鲸鱼优化算法(WOA)、耦合模拟退火(CSA)和粒子群优化(PSO)相结合,以提高预

  
生物炭产量预测对于调整热解进程和推进合理的生物质利用至关重要。本研究开发了一个统一的、可解释的框架,该框架将梯度提升决策树(GBDT)与元启发式优化算法——蚁群优化(ACO)、鲸鱼优化算法(WOA)、耦合模拟退火(CSA)和粒子群优化(PSO)相结合,以提高预测精度。研究人员从同行评审文献中整理了一个包含211个经过实验验证的热解观测数据的综合数据集,涵盖14个理化及操作参数。通过异常值检测和归一化预处理后,所有模型均采用5折交叉验证进行训练,并通过R2、均方误差(MSE)和平均绝对相对误差百分比(AARE%)进行评估。研究人员采用SHAP分析来量化特征贡献,并阐明热解条件与生物炭产量之间的机理关系。在优化后的模型中,GBDT-ACO模型取得了最高的预测精度,测试集R2值为0.709,测试集MSE为16.284。结果凸显了灰分含量、停留时间和峰值温度对产量形成的关键影响,同时也揭示了不同优化策略在计算效率与预测稳健性之间的权衡。
生物炭作为一种多功能碳材料,在农业改良、生物能源生成和可持续废物管理中展现出广阔的应用前景,其产量主要取决于生物质类型和热解条件(如峰值温度、升温速率、停留时间等)。然而,当前文献中缺乏同时评估多种元启发式优化算法与单一预测基线性能的研究,这限制了算法进展和实际部署。为解决这一问题,研究人员构建了一种基于梯度提升决策树(Gradient Boosting Decision Trees,GBDT)与四种元启发式优化算法——蚁群优化(Ant Colony Optimization,ACO)、鲸鱼优化算法(Whale Optimization Algorithm,WOA)、耦合模拟退火(Coupled Simulated Annealing,CSA)和粒子群优化(Particle Swarm Optimization,PSO)——相结合的混合预测框架,旨在提高生物炭产量的预测精度,并通过SHAP(SHapley Additive exPlanations)分析增强模型可解释性。研究从同行评审文献中整理了211个实验验证的热解观测数据,涵盖14个理化和操作参数。经过异常值检测和归一化预处理后,所有模型采用5折交叉验证训练,并以R2、均方误差(MSE)和平均绝对相对误差百分比(AARE%)进行评估。结果表明,GBDT-ACO模型在测试集上取得了最高预测精度(R2=0.709,MSE=16.284),灰分含量、停留时间和峰值温度被识别为影响产量的关键因素。该研究为热解过程优化与生物炭产量预测提供了透明、可比较的框架,论文发表在《Energy Conversion and Management-X》。

为开展本研究,研究人员主要采用了以下关键技术方法:(1)梯度提升决策树(GBDT)作为基础预测模型,其通过迭代拟合弱学习器(决策树)来最小化损失函数;(2)四种元启发式优化算法(ACO、WOA、CSA、PSO)分别用于GBDT超参数搜索,各算法基于不同的搜索策略(如信息素沉积、泡泡网狩猎、耦合冷却调度、粒子速度更新);(3)数据预处理包括基于Hat矩阵的杠杆分析和蒙特卡罗重采样的异常值检测,以及归一化处理;(4)5折交叉验证用于模型评估,消除了静态数据划分的偏差;(5)SHAP分析量化特征贡献,揭示热解条件与产量之间的机理关系。样本均来自同行评审实验文献,共211个数据点。

在结果部分,研究人员通过多种分析手段系统评估了模型性能。

**线性敏感性分析**:通过Pearson相关系数矩阵,研究人员发现灰分含量、停留时间和催化剂酸性位点浓度与生物炭产量呈正相关,而升温速率和峰值温度呈显著负相关,其余特征线性影响较弱。该结果与热化学原理一致,高温促进挥发分释放,停留时间延长则有利于碳化反应。

**数据质量验证**:采用基于Hat矩阵的杠杆分析和蒙特卡罗重采样联合检测异常值,识别出3个杠杆值超过临界阈值(H>H*)的数据点,并将其移除,以防止对回归结构产生过度影响。

**模型优化调优与评估**:通过收敛曲线分析,研究人员发现ACO呈现稳定单调的MSE下降,WOA具有早期振荡,PSO快速下降后平稳收敛,CSA在前20次迭代内迅速达到低误差水平并维持稳定。运行时分析显示,WOA耗时最长(约900秒),ACO约670秒,而CSA和PSO仅约50秒。性能评估表明,GBDT-ACO在测试集上R2最高(0.709)、MSE最低(16.284),AARE%为9.635%,显示出最优的泛化能力;GBDT-WOA虽然训练集R2高达0.998,但测试集R2仅为0.449,表明严重过拟合;GBDT-CSA和GBDT-PSO测试集R2分别为0.547和0.468,泛化能力有限。交叉图和相对误差图进一步证实,ACO优化模型的预测值与实测值最接近1:1参考线,且相对误差分布最集中。SHAP全局特征重要性图显示,固定碳含量、停留时间和温度是最具影响力的预测因子,其次是灰分和氧含量;SHAP依赖图揭示温度升高导致负向贡献(产量降低),固定碳和停留时间带来正向贡献,灰分和挥发分则呈现非线性或交互效应。

在讨论中,研究强调GBDT-ACO在精度、稳定性和泛化性之间实现了最佳平衡,而WOA、PSO和CSA虽在训练指标或计算效率上有优势,但泛化能力不足。SHAP分析结果与热化学知识一致,证实了模型的可解释性。研究结论部分翻译如下:本研究开发了一个用于预测生物炭产量的可解释机器学习框架,采用梯度提升决策树(GBDT)经四种元启发式算法优化。通过系统比较ACO、WOA、CSA和PSO,详细评估了优化策略对预测精度、收敛行为和计算效率的影响。整理的数据集完全来自同行评审实验研究,确保了坚实的经验基础和广泛的生物质原料及热解条件代表性。比较分析表明,只有GBDT-ACO模型实现了可接受的泛化能力,测试集R2为0.709,且测试集MSE和AARE%最低。相比之下,WOA、PSO和CSA对未见数据的预测可靠性有限,尽管在某些情况下它们取得了较高的训练或总体R2。这些差异凸显了基于独立测试集指标评估模型性能的重要性,而非依赖聚合或训练主导的统计量。运行时分析进一步表明,CSA和PSO提供了较高的计算效率,但代价是预测精度降低。SHAP可解释性分析一致地将灰分含量、停留时间和峰值温度确定为生物炭产量的主导预测因子,这与既定的热化学原理相符。总体而言,研究发现GBDT-ACO在测试模型中提供了精度、稳定性和泛化性的最佳平衡。本研究并非声称统一稳健的预测性能,而是提供了一个透明的对比框架,阐明了不同优化策略的优势与局限。结合严格数据整理、多算法优化和SHAP解释的工作流程,为未来旨在改进生物炭生产过程预测建模和机理理解的研究提供了可重复的基础。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号