可解释的生成式机器学习方法,用于预测吸附材料同时去除水中的有机污染物和重金属的过程

《Journal of Cleaner Production》:Interpretable-generative machine learning approaches for predicting simultaneous removal of organic pollutants and heavy metals from water by adsorbent materials

【字体: 时间:2025年11月03日 来源:Journal of Cleaner Production 10

编辑推荐:

  构建含1787个数据点的复合污染物吸附数据库,通过Wasserstein GAN生成1500条合成数据,采用SHAP和特征重要性分析揭示吸附机制。实验表明CatBoost模型预测精度最高(R2>0.90),"促进"吸附效应占比达89%,主要受吸附剂比表面积(0.93)和溶液pH(0.89)影响,桥接和静电相互作用是关键促进机制。数据合成策略有效提升预测性能,为复合污染治理提供新方法。

  
Mudi Zhai|Zhaozhong Wu|Bomin Fu|Jingzhang Sun|Mohamad Sleiman|Frederic C. Meunier|Junsen Wang|Weijie Wang|Tianrun Wang|Haoran Duan|Zisheng Ai|Jose Luis Valverde|Anne Giroir–Fendler|Jean-Marc Chovelon|Arturo A. Keller|Hongtao Wang
环境科学与工程学院,长江水环境重点实验室,教育部,同济大学,四平路1239号,上海,200092,中国

摘要

本研究构建了一个数据集,其中包含了常用的吸附剂,用于同时去除水相中的有机污染物(OPs)和重金属(HMs),并评估了机器学习模型以预测这些污染物在吸附剂上的相互作用。通过Wasserstein生成对抗网络(WGAN)进行数据合成,并利用Shapley加性方法解释特征重要性。结果表明,分类提升(CatBoost)作为最佳机器学习模型脱颖而出,因为它在吸附预测性能和模型可解释性方面表现优异。这些相互作用被分为“抑制”、“无显著效应”和“促进”三类。利用WGAN在原始数据集上增加了1500条可靠的合成数据,使CatBoost在“促进”类别上的预测精度从0.79提高到0.93。吸附剂表面积和溶液pH值是导致吸附行为“促进”的主要因素。桥接和静电相互作用机制可能在促进同时吸附过程中起重要作用。结合可解释的机器学习和WGAN方法的数据合成策略,不仅为预测水相中吸附剂对OPs和HMs的复合吸附行为提供了新的见解,还解决了实验数据不足的问题,从而提高了预测性能。

引言

有机污染物(OPs)和重金属(HMs)的联合污染在医疗、畜牧业、工业和市政废水中普遍存在(Zhai等人,2023年)。OPs和HMs形成的复合物通常更稳定,更难以通过污水处理厂和自然环境去除。这些OP-HM混合物可能比单独存在时对水系统构成更大的风险,即所谓的“混合效应”。因此,开发有效的去除技术对于减少OP-HM组合带来的危害至关重要。吸附技术可以通过吸附剂和吸附物之间的吸引力来浓缩和分离污染物。它具有高效、经济、操作简便且不会产生二次污染的优点,同时吸附剂可以回收和再利用,这使得它成为同时去除水中OPs和HMs的有前景的方法(Zhai等人,2024年)。吸附行为通常通过在各种操作条件下的批量平衡实验来评估(Al-Ghouti和Da'ana,2020年)。然而,这一评估过程耗时且成本高昂(Taoufik等人,2022年)。
随着人工智能的快速发展,机器学习技术为处理大型数据集提供了新的工具(Lin和Zhang,2025年;Wei等人,2025年;Xu等人,2024年)。早期研究已经证实了机器学习在预测OPs或HMs在不同吸附剂上的吸附性能方面的有效性(Palansooriya等人,2022年;Zhu等人,2022年)。基于机器学习的梯度提升决策树模型在预测生物质炭对四环素类抗生素的吸附性能方面表现良好(R2为0.90)(Zhou等人,2023年)。Leng等人构建了一个用于生物质生产的混合机器学习模型,该模型在预测生物炭对HMs的吸附性能方面取得了高达0.996的R2值(Leng等人,2025年)。然而,大多数机器学习研究仍然集中在单一系统上,缺乏对OPs和HMs混合物吸附行为的系统研究。此外,如果实验数据稀缺,机器学习模型的预测能力难以保证。
已经开发了几种方法,如合成数据策略、迁移学习、主动学习和标签传播,以解决数据稀缺问题(Ko?等人,2025年)。其中,生成对抗网络(GANs)由于其生成合成数据的出色性能而成为研究热点。GANs最早于2014年提出,它们可以从一组训练数据中学习并生成与原始数据非常相似的合成数据(Chakraborty等人,2024年)。通过用GANs生成的合成数据补充训练数据集,可以提高机器学习模型的性能。目前,GAN相关的研究已应用于许多领域,如生物医学、计算机视觉、金融市场、信息安全、图像处理和音频识别与生成(Lv等人,2024年),但在环境保护领域,尤其是在基于材料的废水处理方面,相关研究仍较少。
本研究评估了机器学习模型的性能,以确定最佳的去除预测模型。采用基于Wasserstein的GAN(WGAN)方法来扩充原始数据集,该数据集涉及典型吸附剂对水相中OPs和HMs的去除过程,从而进一步优化了模型。此外,还进行了特征重要性计算和Shapley加性解释(SHAP)分析,以揭示影响吸附行为的主要条件和相关机制。本研究为处理同时含有OPs和HMs的废水提供了新的见解,也有助于合理选择和设计环境功能性的吸附材料。

数据集构建

从Web of Science收集了63篇相关主题的论文,共包含1787个数据点,用于构建数据集。涉及的吸附剂材料包括生物炭(BC)、活性炭(AC)、树脂(RES)、金属-有机框架(MOF)、环糊精(CD)和纤维素(CEL)。考虑的重金属包括Cu2?、Cd2?、Pd2?和Cr??。共有24种不同的有机污染物,包括抗生素、非甾体抗炎药、农药、化学副产品和环境污染物

机器学习模型性能比较

图2以及表S2和S3展示了八种机器学习模型对QOPs和QHMs吸附能力的预测性能。MLR模型在预测QOPs和QHMs方面的表现最差,测试集的R2值分别为0.60和0.63。图S2和S3显示,MLR模型预测的实际值与预测值之间存在显著偏差,且随着预测值的增加,误差也在增加。这一发现表明MLR模型难以准确捕捉这些差异

结论

有机污染物(OPs)和重金属(HMs)在水环境中的共存对生态系统和公共健康构成了重大威胁。尽管吸附过程在控制这种复合污染方面显示出有效性,但仍存在一些挑战,包括吸附剂材料开发耗时、吸附效率不理想以及对水相中OP-HM复合污染的吸附机制理解不完全。
在本研究中,构建了一个数据集,其中

CRediT作者贡献声明

Mudi Zhai:撰写——原始稿件、可视化、软件、方法论、调查、形式分析、数据管理。Zhaozhong Wu:可视化、验证、软件、方法论、数据管理。Bomin Fu:撰写——审阅与编辑、验证、监督、资源管理、概念化。Jingzhang Sun:撰写——审阅与编辑、验证。Mohamad Sleiman:撰写——审阅与编辑、验证。Frederic C. Meunier:撰写——审阅与编辑、验证。Junsen Wang:验证、数据管理

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本研究得到了国家自然科学基金(编号:42407061、52270188和72348002)的资助。作者非常感谢中山大学的Peng Wang教授对手稿提出的宝贵意见。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号