通过机器学习引导的预氧化-混凝逆向设计来控制藻类暴发

《Journal of Cleaner Production》:Algal bloom control through machine learning guided inverse design of pre-oxidation-coagulation

【字体: 时间:2026年01月09日 来源:Journal of Cleaner Production 10

编辑推荐:

  有害藻类水华(HABs)威胁饮用水安全,预氧化-混凝工艺因高效和经济成为研究热点,但其参数优化受非线性交互和非系统数据限制。本研究通过补充471组正交实验数据(总样本799组),构建了基于CatBoost元学习的集成模型,结合SHAP可解释分析和逆参数优化算法,实现目标去除效率90%下的最小实验验证量(6组)。模型平均测试R2=0.783,较传统方法减少98%实验量,并揭示混凝剂投加量>氧化剂类型>预氧化时间>氧化剂种类的参数重要性排序。实验验证显示模型预测可靠,且预氧化时间在5-20分钟内达到效果饱和。本框架为HABs控制提供了数据驱动的智能解决方案,填补实验室与规模化应用间的鸿沟。

  
刘宇新|谢坤廷|卜凌军|周世清|朱树民
中国湖南省水利安全技术应用工程研究中心,教育部建筑安全与节能重点实验室,湖南大学土木工程学院,长沙,410082

摘要

有害藻华(HABs)威胁饮用水安全及生态系统稳定性。预氧化-混凝是一种有效的控制方法,但由于参数之间的非线性相互作用和系统数据集的有限性,其操作优化仍具有挑战性。本研究开发了一种基于机器学习的逆向设计框架,用于优化藻类去除的预氧化-混凝过程。文献数据(n = 328)结合了471个新进行的正交实验,形成了一个包含九种氧化剂、三种混凝剂以及5至60分钟预氧化时间范围的平衡数据集(n = 799)。该框架采用CatBoost作为四个基础算法的元学习器,并通过SHAP分析进行解释。模型与序贯二次规划(SQP)结合使用,以实现90%的去除效率目标。集成模型的平均测试R2值为0.783,特别是在处理K?FeO?等难处理氧化剂时效果显著提升(+34.01%)。SHAP分析显示参数重要性排序为:混凝剂剂量 > 氧化剂剂量 > 预氧化时间 > 氧化剂类型,表明在5-20分钟内预氧化效果已达到饱和。逆向设计将实验工作量减少了98%以上(384次对比6次验证),同时保持8.34%的准确率。实验验证(6次重复实验)证实了模型的预测可靠性和过程效率。平衡的数据集对于捕捉氧化特异性动态至关重要。所提出的框架提供了一种成本效益高、数据驱动的解决方案,能够快速精确地控制有害藻华,从而将实验室研究与实际水处理操作联系起来。

引言

近年来,全球气候变化和富营养化的加剧导致有害藻华(HABs)的发生频率增加,对饮用水安全、水生生态系统稳定性和社会经济可持续性构成了严重威胁(Feng等人,2024;Kang等人,2025;Liu等人,2025;Wu等人,2022)。传统的藻类去除技术,如单独使用混凝和空气浮选,受到处理效果有限和化学药剂消耗高的限制(Dai等人,2020)。相比之下,预氧化-混凝技术因其卓越的去除效率和成本效益而成为控制HABs的关键方法(Mao等人,2024)。越来越多的研究表明,合理选择氧化剂和投加策略可以进一步增强这种协同效应。例如,Qiao等人(2013)发现低剂量KMnO?能够选择性地改变藻类细胞外有机物的分子量分布,从而在大幅降低PAC消耗的情况下去除超过90%的微囊藻。Li等人(2023)通过使用Mn(II)激活过碳酸钠生成原位MnO?,实现了88%的藻类去除率,同时减少了细胞裂解和氮类消毒副产物的产生。Zhou等人(2020)将Fe(II)与过一硫酸盐(PMS)结合,在原位形成磁性Fe?O?絮体,20分钟内实现了超过92%的藻类去除率和58%的藻类-有机物去除率,从而在反应速度和化学效率上超越了传统的预氧化方案。
尽管取得了这些进展,但预氧化-混凝技术的大规模应用仍面临诸多挑战。过程参数(如氧化类型和剂量、混凝条件)与藻类生物特性之间的复杂非线性相互作用阻碍了通过传统试错优化策略实现最佳过程控制(Lin等人,2023b)。目前预氧化-混凝过程的设计主要依赖于经验公式和小型试验,这存在三个主要局限性:首先,参数优化既耗时又昂贵,难以适应不同水源和水质的多样化需求;其次,对藻类去除率与过程参数之间关系的系统理解尚不足;最后,现有研究主要侧重于正向评估过程效果,限制了从目标去除效率推导出最佳参数的逆向设计方法的研究(Kim等人,2024;Lin等人,2023a)。这些挑战严重限制了预氧化-混凝技术在应对HAB事件时的快速响应能力。
机器学习的出现为克服现有瓶颈提供了新的途径。在环境工程领域,机器学习已被广泛应用于水处理过程的建模和优化,包括混凝优化和膜污染预测(Li等人,2021;Li等人,2021)。为了满足对环境水体智能监测日益增长的需求,Jiang等人(2024)开发了一种自适应随机森林框架,能够在0.5小时内利用易于获取的环境和土地利用变量量化自然水体中的抗生素抗性负担,显著优于传统的3-7天实验流程。Jeong等人(2024)构建了可解释的机器学习模型(如Extra Trees),用于预测湄公河三角洲多层含水层的盐度,并利用SHAP分析阐明了Cl?、pH和HCO??如何受人为抽水和海洋距离的影响。Cha等人(2024)利用随机森林和高斯过程回归构建了基于臭氧衰减动力学的•OH暴露预测模型,表明加入∫[O?] dt将R2值提高到0.95,从而为原位微污染物控制提供了高效工具。
在基于机器学习的逆向设计领域,Sun等人(2023)开发了一种用于电化学氧化的框架,能够精确地将目标反应速率映射到过程参数。最近,Sun等人(2024)开发了一种基于XGBoost的机器学习逆向设计框架,用于沼气升级。该框架通过整合文献数据和多目标粒子群优化,同时预测CH?含量和H?转化效率,确定了最佳操作条件,实验验证误差分别低至2.95%和8.50%。类似地,Chen等人(2022)开发了一种基于神经网络的逆向设计平台,通过整合有限元模拟数据训练多层感知器,快速(速度提升100倍)确定了微电极阵列的几何形状和电位参数,从而在微米秒级别生成精确的O?和H?O?梯度,为微生物微环境研究提供了高通量工具。然而,针对预氧化-混凝特定过程的基于机器学习的逆向设计仍大多未得到探索,亟需系统性的研究。
本研究提出了一个基于机器学习的逆向设计框架,用于通过预氧化-混凝去除藻类。通过整合文献数据和新进行的实验数据,开发了一个预测藻类去除效率的模型,并将其与逆向参数优化算法相结合,从而解决了试错方法固有的方法学局限性,为藻华控制提供了智能解决方案。具体而言,研究将(1)建立涵盖多种藻类去除率和过程条件的数据集,包括文献收集和实验数据获取;(2)开发高精度的机器学习模型来预测藻类去除效率;(3)利用SHAP分析阐明关键影响参数的机制作用;(4)构建逆向设计模块,快速推荐最佳过程参数;(5)通过目标实验验证逆向设计结果的可靠性。

文献数据收集与标准化

本研究系统地搜索了Web of Science、Elsevier和CNKI(2000–2025)等权威数据库,汇编了关于预氧化-混凝去除藻类的专门文献数据集。在数据收集过程中,建立了三级筛选机制:(1)确保文献报告了完整的预氧化条件(氧化剂类型、剂量、接触时间)和混凝参数(混凝剂类型、剂量、混合强度、接触时间)

数据集描述性分析

从24篇同行评审的出版物中提取了328个有效数据点。数据点在各氧化剂下的分布如下:KMnO?(n = 70)、O?(n = 65)、K?FeO?(n = 36)、Cl?(n = 36)、CaO?(n = 26)、H?O?(n = 16)、PMS(n = 41)和SPC(n = 38)。数据集存在两个显著局限性:首先,总体样本量较小且不平衡,例如H?O?子集仅占KMnO?子集的22.9%;其次,藻类分布不均

结论

本研究提出了一个集成的、数据驱动的框架,结合了大规模实验数据增强、可解释的机器学习和逆向设计优化,为通过预氧化-混凝精确高效控制有害藻华提供了新的方法。通过系统解决数据稀缺性和不平衡问题,并将机制可解释性嵌入预测建模中,该工作弥合了实验室规模研究与实际工程应用之间的差距

CRediT作者贡献声明

刘宇新:撰写——初稿、可视化、数据分析、数据整理。谢坤廷:可视化、软件开发、数据整理。卜凌军:验证、正式分析。周世清:资源获取、正式分析、概念构建。朱树民:撰写——审稿与编辑、项目监督、资金申请。

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了湖南省自然科学基金(2025JJ40047)的财政支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号