《Environmental Pollution and Management》:Machine Learning Based Prediction of Waste Activated Sludge Generation for Optimization of WWTP Operational Efficiency
编辑推荐:
本研究利用机器学习模型预测污水处理厂外排剩余污泥量,结合超参数优化与滑动窗口移动平均方法,对比随机森林、XGBoost和LightGBM的性能,发现XGBoost模型预测效果最佳(R2=0.911)。进一步通过NSGA-II多目标优化,在满足出水水质约束下确定最优污泥龄,为提升污水处理厂运营效率提供工具。
杨成俊|金俊英|严智英|金敏秀|李明珍|李康勋
韩国天主教大学能源与环境工程系,韩国京畿道富川市Jibong-ro 43号
摘要
本研究利用机器学习模型,基于工艺运行和水质数据预测了需要外运处理的废弃活性污泥的数量。通过结合超参数优化和基于滑动窗口的移动平均方法,比较分析了随机森林(Random Forest)、XGBoost和LightGBM模型的性能。此外,我们提出了一个集成预测-优化流程,将模型预测的废弃活性污泥与NSGA-II算法相结合,以在出水水质约束条件下确定最佳污泥停留时间(SRT)。分析表明,XGBoost-Exp1模型表现出最佳的预测性能,其R2值为0.911,均方根误差(RMSE)为87.59,平均绝对误差(MAE)为65.25。SHAP分析显示,CODeff和CODinf变量与实际生产中的废弃活性污泥量密切相关,并对预测贡献最大。NSGA-II算法生成了满足出水水质约束的SRT最优解集,使得操作选择既能减少废弃活性污泥量又能保证出水质量。本研究证明了所提出的建模策略在各种运行条件下的高预测准确性,从而证实了其提升污水处理厂(WWTP)运营效率并指导预测性维护策略的潜力。此外,该模型还展示了集成到实时预测系统中的可行性,以实现工艺自动化。
引言
在过去几十年中,许多污水处理厂的废物管理已成为一个关键挑战,工业发展导致污泥产量大幅增加,引发了对废物管理影响的严重担忧(Lin等人,2016年;Wu等人,2025年)。在这种情况下,污水处理过程的污泥预测模型对于废物管理至关重要,污水处理厂产生的污泥必须作为最终废物进行管理或安全处置(Melo等人,2018年;Ronda等人,2023年)。然而,污水处理过程本质上是复杂且非线性的,这阻碍了传统模型在现实污水处理厂管理中的实际应用(Chen等人,2024a)。此外,这些系统难以满足从污水处理中回收能量的污泥体积预测需求(Shao等人,2023年)。
研究表明,机器学习(ML)算法在处理这些问题方面具有巨大潜力(Wan等人,2019年)。许多学者已将ML应用于污水处理厂,以预测水质参数。例如,深度神经网络(DNNs)(Ye等人,2024年)、人工神经网络(ANNs)(Ozkan等人,2009年;Vyas和Kulshrestha,2019年)、随机森林(RF)(Wang等人,2021a年;Zhou等人,2019年)和支持向量回归(SVR)(Liu等人,2019年)已被用于根据不同数据集的特点寻找具有最佳预测性能的模型。具体来说,Chen等人(2024年)通过数据增强和集成学习方法提高了化学需氧量(COD)和总能耗的预测精度;Ye等人利用反向传播神经网络(BPNN)、SVR、DNN和XGBoost系统地比较了这些模型在各种水质指标下的预测性能(Ye等人,2024年)。此外,Bagherzadeh等人证实,在污水处理厂的总氮预测中,梯度提升机(GBM)和RF的性能比ANN高出10%(Bagherzadeh等人,2021年)。一些研究证明了污泥预测模型的有效性和准确性。例如,Ekinci等人使用基于互信息的特征选择和基于相关性的特征选择算法提高了污泥产量的预测性能(Ekinci等人,2023年)。然而,尽管根据生物处理参数的不同,废弃活性污泥(WAS)表现出非线性特征,并受SRT等工艺运行变量的影响,但关于废弃活性污泥生成预测的研究仍然有限。
本研究收集了一污水处理厂一年的进水及出水数据,以评估三种代表性的基于树的模型的预测性能:随机森林(RF)、XGBoost和LightGBM。通过超参数调整提高了各模型的性能,并利用基于滑动窗口的移动平均方法对数据集进行了扩展,以分析扩展效果。此外,基于预测的WAS应用了NSGA-II多目标优化算法,得出了满足出水水质标准的SRT最优解集。通过这项研究,我们克服了传统理论公式(如运行变量、环境变化等)的局限性,并通过提前预测废弃活性污泥量,提供了基于污泥处理成本规划和工艺优化的长期稳定污水处理厂运行工具。
过程描述与数据收集
本研究选择的污水处理厂位于韩国永山河流域,日均处理能力约为100,000立方米。收集了该污水处理厂一年内每日产生的水质参数数据,共包含17个参数,具体如下:来自生物处理池的参数包括:CODinf、BODinf、TNinf、TPinf、SSinf、pHinf、MLSS、温度、流量、DO、WAS、CODeff、BODeff、TNeff、TPeff、SSeff、pHeff。
数据特征与相关性分析
表1展示了水质指标和污水处理厂运行参数的统计信息。在特征变量中,pHinf和pHeff的系数变异(CV)最低,为0.02,由于其方差可以忽略不计,预计它们对模型训练的贡献较小。TPeff和温度的变异系数分别为0.34和0.38,属于可接受的工艺范围内的正常波动。结论
本研究应用机器学习方法优化了污水处理厂中废弃活性污泥(WAS)的预测。综合污水处理厂的水质指标特征及不同建模方法之间的预测性能差异,得出以下结论:
1.通过对水质参数进行相关性分析和主成分分析,确认CODeff、CODinf、BODinf、SSinf和MLSS是预测废弃活性污泥生成的最重要变量
CRediT作者贡献声明
金敏秀:研究工作。李明珍:研究工作。金俊英:方法论研究。严智英:研究工作。杨成俊:撰写初稿、方法论制定、概念构建与可视化设计。李康勋:撰写修订、监督工作
利益冲突声明
作者声明没有已知的可能影响本文研究的财务利益或个人关系。
致谢
本研究得到了韩国天主教大学2025年研究基金的支持。