
-
生物通官微
陪你抓住生命科技
跳动的脉搏
机器学习模型在皂脚分离优化中的不确定性评估:基于XGBoost与SVM的多目标决策框架
【字体: 大 中 小 】 时间:2025年06月18日 来源:Water Resources and Industry 4.5
编辑推荐:
本研究针对皂脚分离过程中测量数据有限和输入不确定性问题,开发了集成XGBoost、SVM和响应面法(RSM)的计算框架。通过评估数据可用性、模型复杂度、预测精度和输入敏感性,发现XGBoost对COD和Porg 预测最优,SVM对AN预测最佳。结合k-means聚类和全局敏感性分析(GSA),揭示了油中磷含量对污染物输出的关键影响,为工业过程优化提供了数据高效的工具。
在植物油精炼过程中,皂脚分离是一个关键但环境负担重的环节,其产生的酸性废水中含有高浓度有机磷(Porg
)和化学需氧量(COD)污染物。传统响应面法(RSM)模型预测误差高达20%,且忽视实际工厂运行参数的不确定性。随着植物油需求增长(特别是生物燃料领域),开发精准预测模型对实现可持续发展目标(SDGs)中的清洁水体和气候行动至关重要。
针对这一挑战,研究人员构建了融合机器学习(ML)和传统RSM的创新框架。通过5年持续监测(68组实验)和短期实验设计(27组)数据,系统评估了极端梯度提升(XGBoost)、支持向量机(SVM)和随机森林(RF)在预测Porg
、COD和酸值(AN)方面的性能。研究采用蒙特卡洛模拟和k-means聚类划分输入域,结合非支配排序遗传算法(NSGA-II)进行多目标优化,并首次在皂脚分离领域应用方差分解的全局敏感性分析(GSA)。
关键技术包括:1)基于5年工厂运行数据的机器学习模型训练;2)Hartley实验设计获取RSM模型参数;3)Sobol指数计算评估输入参数敏感性;4)NSGA-II算法实现确定性/随机性多目标优化。
研究结果显示:
模型性能比较
XGBoost对COD(R2
=0.990)和Porg
(R2
=0.989)预测最优,SVM对AN(R2
=0.990)表现最佳。相比RSM模型,长期数据训练的ML模型将Porg
预测误差从26.78降至13.87 mg P/L。
输入域聚类分析
通过k-means识别出RSM可替代ML的工况:高磷含量(207.62 mg P/L)和高NaOH流量(3.23 kg/h)时,SVM与RSM的Porg
预测差异仅5.8%。
敏感性分析
GSA揭示油中磷含量是Porg
(STi
=0.67)、COD和AN的主导因素,而传统认为关键的工艺参数(如分裂温度Tr)影响较弱(STi
≤0.03)。
优化结果
随机优化考虑磷含量不确定性(N(185,10) mg/kg)后,Porg
和COD分别比确定性方案恶化3.2%和2.5%,凸显精确测定磷含量的必要性。
这项研究创新性地建立了数据需求与模型性能的量化关系,为工业过程优化提供了方法论范式。其意义在于:
1)首次证明在特定输入域内,简单RSM可替代复杂ML模型,降低实施门槛;
2)纠正了传统认知,证明原料特性(磷含量)比工艺参数对污染输出的影响更大;
3)开发的框架可扩展至其他数据稀缺的工业过程优化。未来研究可结合生成对抗网络(GAN)增强数据,并探索混合模型在跨规模装置的应用潜力。
生物通微信公众号
知名企业招聘