基于机器学习的有机化合物在UV/TiO?作用下降解速率常数的预测
《Journal of Water Process Engineering》:Machine learning-based prediction of rate constants in UV/TiO
2 degradation of organic compounds
【字体:
大
中
小
】
时间:2026年01月28日
来源:Journal of Water Process Engineering 6.7
编辑推荐:
机器学习模型优化及可解释性分析在UV/TiO?光催化降解中的应用研究,通过整合570组实验数据构建随机森林、XGBoost等四类模型,发现XGBoost在测试集上表现最佳(R2=0.8366,RMSE=0.2215)。可解释性分析表明初始污染物浓度与光照强度为关键影响因素,且降解速率随浓度降低和光照增强呈现非线性变化。该框架实现了机理与数据驱动模型的结合,为水处理工艺优化提供新方法。
张艳林
湖北理工学院环境科学与工程学院,黄石,435003,湖北,中国
摘要
基于UV/TiO2的高级氧化过程(AOPs)通过生成高活性物质有效去除废水中的有机污染物。机器学习(ML)利用大规模数据集系统地揭示输入特征与降解动力学之间的关系,从而减少实验工作量并支持水处理过程的优化。从37项先前的研究中收集了总共570组数据,包括实验参数和污染物的分子性质。通过基于Optuna的超参数搜索和五折交叉验证,优化了四种机器学习算法:人工神经网络(ANN)、随机森林(RF)、支持向量回归(SVR)和极端梯度提升(XGBoost),并将其应用于模拟有机化合物的表观降解速率常数。结果表明,XGBoost在测试集上取得了最高的预测性能(R2 = 0.8366,RMSE = 0.2215)。模型解释使用了综合可解释性框架,结合了排列重要性、SHAP(Shapley Additive exPlanations)值和偏依赖图(PDPs)。初始污染物浓度和光照强度被确定为最具影响力的预测因子。PDPs显示,在低初始浓度下-log(k)急剧增加,在较高辐照度下减少。本研究表明,数据驱动的建模结合可解释的机器学习可以准确预测光催化降解速率,并揭示与已建立的光催化机制一致的有统计支持的趋势。所提出的框架可以指导基于UV/TiO2的水处理应用中的过程优化和污染物优先级排序。
引言
高级氧化过程(AOPs)已被广泛用于从水和废水中去除顽固的有机污染物,通过生成活性氧(ROS)实现高降解效率[1]、[2]、[3]、[4]、[5]、[6]、[7]。其中,使用二氧化钛(UV/TiO2)的光催化是一种最有前景的方法,因为它具有强大的氧化能力、化学稳定性和成本效益[8]、[9]。该过程通过吸收紫外线在TiO2表面生成电子-空穴对,从而驱动超氧自由基、羟基自由基等强氧化剂的形成,进而矿化有机污染物[10]、[11]、[12]。光催化降解的动力学受到多种实验参数(例如光照强度和催化剂剂量)以及污染物分子性质[13]、[14]、[15]的影响。传统的动力学模型(如Langmuir-Hinshelwood模型)通常依赖于简化的吸附-反应机制[15]、[16]、[17]。因此,它们无法捕捉多个变量之间的复杂非线性相互作用,这限制了它们的预测能力。
近年来,机器学习(ML)越来越多地应用于高级氧化过程中的复杂非线性过程建模[18]、[19]。通过整合大规模数据集,ML不仅节省了实验时间,还揭示了传统动力学模型难以捕捉的复杂非线性关系。例如,Lu等人[20]将ML与量子化学描述符结合,构建了UV/H2O2降解芳香族有机物的定量结构-活性关系模型,准确预测了伪一级速率常数,并确定了控制反应性的关键描述符,如q(C)min和TPSA。类似地,ML方法已被应用于关联半导体基光催化剂的物理化学性质、染料性质和实验条件与反应速率常数,为促进染料的光降解提供了见解,并指导了过程设计,同时减少了实验工作量[21]。此外,Zhang等人[22]开发了一种创新方法,通过使用机器学习从可用变量中估计缺失值来应对催化剂表征中的数据缺失问题,从而提高了预测模型对高级氧化过程效率的准确性和实用性。在光催化降解的背景下,Jiang等人[23]开发了一个基于ANN的预测模型来估计UV/TiO2的降解速率常数,强调了污染物类型的主导作用。尽管取得了这些进展,但ML模型的所谓“黑箱”性质限制了其可解释性,阻碍了对机制的理解,而这对于过程优化和设计实用的水处理系统至关重要。
本研究旨在探索ML在利用Degussa(Evonik) P25进行光催化降解建模中的适用性,这是一种在许多光催化反应系统中具有相对高活性的广泛使用的商业催化剂,但其数据驱动视角下的系统研究尚未进行。汇编了一个包含37篇同行评审出版物中570条实验记录的综合性数据集。选择了15个输入特征,涵盖操作参数和分子描述符,以及一个表示降解速率常数(以-log(k)表示)的目标变量。训练并优化了四种ML模型,即随机森林(RF)、极端梯度提升(XGBoost)、人工神经网络(ANN)和支持向量回归(SVR)。使用均方根误差(RMSE)和决定系数(R2)评估了模型性能。通过排列重要性、SHAP(Shapley Additive exPlanations)摘要图和偏依赖图(PDPs)对最佳模型进行了解释,以阐明输入特征的相对影响,并将出现的模式与文献中报道的已知光催化行为联系起来。这项工作为预测UV/TiO2光催化动力学建立了一个全面且可解释的框架。作为一个基于元分析的建模工具,它整合了大量已发布的数据来支持假设生成和指导实验设计。该框架为优化AOP系统提供了实用且界限明确的见解,其适用性明确受到汇编数据集中表示的操作范围的约束。因此,它为未来的实验验证和更通用的预测模型的开发提供了原则性基础。
实验和分析方法
实验和分析方法
图1提供了应用于研究UV/TiO2过程降解动力学的数据驱动工作流程的示意图。
数据集分析
所有15个输入特征和输出特征在一个包含箱形图、小提琴图和抖动散点图的组合图中进行了可视化(图S1),提供了它们分布的概览。数据集的描述性统计信息总结在表1中。分子描述符显示出很大的变化,表明化学多样性很高。分子量范围从32.04到991.8 g mol?1,密度从0.79到2.72 g cm?3,氢键供体和受体数量从0到8和0–24,
结论
本研究开发了一个综合的机器学习框架,使用基于已发表参考文献的570条实验记录的数据集来预测UV/TiO2光催化降解的表观速率常数。然后引入了四种机器学习模型(即RF、XGBoost、ANN和SVR),其中XGBoost模型在训练集和测试集上都取得了最佳性能,具有最低的CV-RMSE和最高的R2,证明了其捕捉非线性的优越能力
CRediT作者贡献声明
张艳林:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,方法学,调查,正式分析,数据管理,概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号