合成数据增强的HB-DTXGB模型:基于机器学习的CuO/ZnO-卤氧石光催化降解四环素的方法

《Journal of Environmental Chemical Engineering》:Synthetic Data-Augmented HB-DTXGB Model: An ML based Photocatalytic Degradation of Tetracycline with CuO/ZnO-Halloysite

【字体: 时间:2026年01月06日 来源:Journal of Environmental Chemical Engineering 7.2

编辑推荐:

  光催化降解四环素污染物的机器学习模型优化研究。通过合成数据增强(高斯噪声与自助法)将308个实验样本扩展至15000个,训练10种机器学习算法,发现HB-DTXGB(决策树与XGBoost混合)模型R2达0.99,催化剂类型、用量、pH及反应时间为主要影响因素。

  
Ganesan Anandhi | M. Iyapparaja
智能计算系,计算机科学与工程及信息系统学院,维洛尔理工学院,维洛尔 632014,泰米尔纳德邦,印度

摘要

尽管大多数与光催化降解相关的建模研究都受到现实世界数据不足的困扰,但本研究探讨了合成数据增强在改进预测建模方面的优势。首先收集了使用基于CuO/ZnO-哈洛石的五种不同催化剂系统对四环素(TCP)进行光催化降解的308个实验观察结果。然后,通过高斯噪声和自举法对数据集进行增强处理,同时保留原始测量的统计特性,将其扩展到15,000个样本,以创建更稳健的训练环境。利用这个增强后的数据集训练了十种机器学习(ML)算法,包括集成模型和基于核的模型,用于预测降解百分比。这些算法被进一步组合成双模型和三模型混合形式,以提高降解效率。基准测试结果显示,使用HB-DTXGB(混合提升:DT + XGB)算法获得了最高的预测准确性,R2值为0.99。分析表明,影响降解效率的主要操作参数包括催化剂类型、催化剂用量、药物用量、时间和pH值。本研究提出了一种机器学习工作流程,该流程有效地整合了合成数据增强和多模型基准测试,用于光催化水处理应用的预测优化。

引言

新兴污染物造成的水污染是现代环境科学中最持久的问题之一,人们越来越关注开发不同的先进废水处理方法,以克服传统方法的局限性[1]、[2]、[3]、[4]、[5]。在这些污染物中,四环素(TCP)特别受到关注,因为它在工业和农业中有广泛的应用,并且具有化学稳定性和抗生物降解性[6]、[7]、[8]。由于其自然分解速度非常缓慢,在水生生态系统中持续存在时间较长,TCP已成为一个重大的生态和公共卫生问题[9]、[10]。文献中的证据表明,TCP会在食物链之前在土壤和淡水环境中积累,导致微生物群落、植物代谢和水生生物受到干扰[11]、[12]。这些日益严重的关切加剧了对创新处理技术的需求,这些技术能够将TCP完全降解为无毒中间体,而不仅仅是将其转化或吸附[9]、[13]、[14]、[15]。
在当前针对这类持久性有机污染物的多种破坏性方法中,光催化降解技术显示出巨大的潜力[16]、[17]、[18]、[19]。由于光催化是通过半导体表面的光驱动氧化还原反应进行的,因此该技术不需要像传统物理化学过程那样的高能量输入,也不会产生二次污染物[2]、[20]、[21]。由于其有利的带隙结构和高表面活性(包括在光照下产生活性氧的能力),基于金属氧化物的光催化剂(如CuO和ZnO)得到了广泛研究[7]、[11]、[22]、[23]。这进一步提高了哈洛石(一种天然存在的纳米管状铝硅酸盐材料)的催化性能,因为它提供了高表面积的支撑结构,同时改善了催化剂的稳定性、分散性和电子传输[24]、[25]、[26]。因此,自支撑的CuO/ZnO-哈洛石纳米复合材料受到了越来越多的关注,因为它们结合了半导体金属氧化物的优点以及基于粘土的支撑材料的结构和形态优势[21]、[24]、[27]、[28]。
在本研究中,合成了五种基本组成为CuO/ZnO-哈洛石复合材料的催化剂系统,并测试了它们在受控光照条件下降解TCP的效率。在评估催化行为时研究了一些重要的操作参数,包括催化剂用量、溶液pH值、药物用量和反应时间[28]、[29]、[30]。虽然这些系统具有很强的光催化能力,但对于各种参数之间相互作用及其对降解效率影响的机制理解仍然有限,尤其是在实验数据集较小时[20]、[31]、[32]、[33]、[34]。大多数非线性关系,特别是在光催化过程中可能发生的高阶相互作用,通常难以用传统的统计方法进行建模[35]、[36]。这激发了应用机器学习方法的兴趣,因为机器学习方法可以模拟复杂模式并提供传统经验建模难以实现的预测洞察力。
机器学习已成为光催化研究中不可或缺的工具,因为模型开发可以识别多维数据集中的相关性,运行参数敏感性分析,并对污染物降解进行高精度预测[35]、[37]、[38]、[39]。然而,大多数光催化研究仍然受到实验观察数据稀缺的限制,而机器学习模型通常也受到这一限制。以本工作为例,仅使用了308个关于五种催化剂系统的TCP降解的实验观察结果。尽管样本量很大,但仍然不足以训练最先进的回归架构[40]、[41]、[42]。因此,数据增强的经验框架基于高斯噪声注入和基于自举的重采样方法。这里提出的数据增强方法旨在保留原始实验数据集的统计分布,同时生成合成变异数据,从而大幅增加数据量。

方法部分

方法

本节描述了实验和理论数据的收集过程,以及实验和计算数据处理及验证过程。进行这项研究的初步数据集由G. Madhumitha博士和J. Avinash先生(维洛尔理工学院高级科学学院)提供。G. Madhumitha等人[43]报道了CuO-ZnO和CuO-ZnO-哈洛石纳米管的合成方法。在本研究中,CuO-ZnO-HNT是这样制备的……

提出的混合方法

本研究通过系统地结合多种机器学习的优势,显著提高了预测性能。首先,我们根据两个重要标准(即最高的决定系数R2和最低的平均绝对百分比误差MAPE)选择了表现最好的五种算法。然后,通过两种不同的策略将这五种算法进行了混合:52 = 10种独特的两种算法组合

结果与讨论

这个首个实验数据集包含308条记录,描述了在不同反应条件下的四环素光降解行为:催化剂类型、催化剂用量、TCP用量、溶液pH值和时间。为了克服小数据集的公认弱点并增强预测机器学习的稳健性,采用了统计合成数据增强方法。
尽管在数据集中融入了大量真实的实验数据点……

结论与未来方向

本研究的目标已经完全实现,即开发了一种稳健的机器学习方法,能够准确预测使用CuO/ZnO-哈洛石复合材料的光催化降解效率。我们通过使用高斯噪声和自举法缓解了数据稀缺的问题,将有限的308个样本数据集扩展到了15000个样本的增强数据集。随后的基准测试表明,HB-DTXGB回归器的混合集成模型取得了最佳性能。

未引用的参考文献

[63]、[64]、[65]

CRediT作者贡献声明

IYAPPARAJA M:撰写——审阅与编辑、监督、资源提供。Ganesan Anandhi:撰写——原始草稿、方法论、研究、数据分析、概念化。

利益冲突声明

作者声明没有可能影响本研究的关系或财务利益。

致谢

作者感谢维洛尔理工学院(VIT)管理层对这项研究的支持。作者还要感谢G. Madhumitha研究小组在催化剂制备方面的指导。我们衷心感谢K. Sathya Narayana Sharma博士和Amrutashree Hota女士在机器学习方面的支持。同时,我们也感谢S. Hari Prakash先生和VIT的J. Avinash先生在了解与光催化剂和降解研究相关的各种术语方面所提供的帮助。

利益冲突声明

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号