利用机器学习预测小型饮用水集水区中受监管和新兴的消毒副产物

《Environment International》:Predicting regulated and emerging disinfection byproducts in small drinking water catchments using machine learning

【字体: 时间:2025年11月18日 来源:Environment International 9.7

编辑推荐:

  本研究利用机器学习模型,结合DOM光谱数据(如PARAFAC成分和荧光指数)和水化学参数(如DOC、DIC、Br?浓度),预测了饮用水氯消毒过程中生成的10种 regulated(THMs、HAA5)和 emerging(DCAN、TCNM、TCP)副产物。实验表明,模型在定量预测(平均R2=0.86,RMSPE=27.9%)和分类预测(SVM准确率≥85%)方面表现优异,尤其对常见副产物(TCM、BDCM)预测效果最佳。DOM光谱数据可作为独立预测变量,为在线监测提供技术支持,助力全球饮用水安全风险防控。

  饮用水消毒过程中,消毒副产物(DBPs)的形成是一个重要且复杂的问题。这些副产物通常是由消毒剂(如氯)与天然有机质(DOM)以及水体中的无机离子发生非预期氧化反应产生的。DBPs可能对人体健康产生多种负面影响,包括致癌性、致突变性和细胞毒性等。因此,准确预测DBPs的形成对于确保饮用水安全至关重要。本研究通过实验和机器学习技术,探索了如何利用DOM光谱数据和水化学参数来预测受监管和新兴DBPs的浓度,旨在为全球饮用水处理厂提供一种数据驱动的风险管理方法。

### 研究背景与意义

氯是全球范围内最常用的饮用水消毒剂,已用于数十年,以有效灭活病原体并防止水传播疾病。然而,氯的使用不可避免地导致DBPs的形成。这些副产物的种类繁多,超过1400种已被识别,其中一些尚未被完全了解。随着环境变化和人口增长,DBPs的形成趋势可能会加剧,从而对公共健康构成更大威胁。特别是在爱尔兰,由于82%的饮用水来源是地表水,且许多小型水源采用慢砂过滤,缺乏有效的DOM去除能力,因此该国在欧盟成员国中报告了最高的THM4超标情况。这一现象表明,当前的DBPs风险评估方法可能不足以全面反映潜在的健康危害。

此外,全球范围内地表水和地下水中的DOM浓度正在上升,这种趋势被称为“褐化”。褐化的原因包括大气沉积化学变化、土地利用变化和气候变化的影响。这种变化增加了DBPs前体物质的释放,进一步加剧了饮用水中DBPs的形成风险。因此,开发一种高效、经济且易于实施的DBPs预测方法,对于全球饮用水安全管理具有重要意义。

### 实验方法与数据收集

本研究选取了两个小型饮用水流域(面积分别为17 km2和35 km2),这两个流域具有典型的爱尔兰小规模水源特征,即上游的泥炭土壤和下游的农业牧场。通过在不同流速条件下采集样本,确保了数据的代表性。所有样本在野外进行0.7 μm玻璃纤维过滤,以标准化DBPs前体物质的浓度。随后,在pH 7和25°C的条件下进行氯化实验,持续72小时。实验过程中,氯浓度保持在与DOM的化学计量比之上,以最大化DBPs的形成潜力,而不是估计实际饮用水中的浓度。

在实验中,测量了多种水化学参数,包括溶解有机碳(DOC)、溶解无机碳(DIC)、铵(NH??)、硝酸盐(NO??)和溶解有机氮(DON)等。同时,通过荧光激发-发射矩阵(EEM)和紫外-可见吸收光谱(UV–Vis)技术,获取了DOM的光谱特性。EEM数据经过处理,包括内滤效应校正和拉曼归一化,以提高数据的准确性和可靠性。最终,通过PARAFAC分析,将EEM数据分解为六个独立的荧光组分,其中前三个组分(C1到C3)占据了模型变量重要性的98%。

### 机器学习模型的应用

为了预测DBPs的形成,研究团队开发了两种独立的机器学习模型。第一种模型使用了34个候选预测变量,包括DOM光谱数据和传统水化学参数。第二种模型则仅基于DOM光谱数据,以期实现更高的样本处理能力和在线监测的应用。两种模型均采用交叉验证方法,以确保其预测性能的稳健性和无偏性。

在模型训练过程中,首先对每个DBP参数的出现频率进行了分析,以决定其是否适用于二元存在-缺失分类或定量预测。对于出现频率较低的DBP参数,仅采用支持向量机(SVM)进行分类;而对于出现频率较高的参数,则使用定量预测模型。通过这种方法,研究团队能够优化预测变量的组合,提高模型的准确性。

机器学习模型的预测性能评估结果显示,对于定量预测,平均R2值为0.86,而根均方百分比误差(RMSPE)为27.9%。对于二元分类,平均准确率为95.6%。这表明,机器学习方法在预测DBPs方面具有较高的潜力。研究还发现,模型对两种常见的类腐殖质荧光物质和254 nm处的紫外-可见吸收特别敏感,而水化学参数对模型性能的提升作用相对较小。

### 实验结果与讨论

在实验中,研究团队分析了198个样本的DBPs浓度,并发现其中一些DBP参数(如TCM、THM4、DCAA、TCAA和HAA5)的预测性能较好,而其他参数(如BDCM和DBCM)的预测性能相对较低。这种差异可能与这些参数在样本中的出现频率有关。此外,研究还发现,DOM光谱模型在预测某些DBP参数(如TCNM)时表现出色,而在预测TBM时效果不佳,这可能与TBM在源水中的出现频率较低有关。

通过敏感性分析(SA)和变量重要性(ARI)评估,研究团队发现DOC和PARAFAC组分C1在预测DBPs中起到了关键作用。这表明,DOM的光谱特性可以作为有效的预测变量,用于DBPs的形成预测。此外,研究还发现,碳酸盐等无机物质对某些溴化DBPs(如DBCM)的形成有显著影响,这可能与碳酸盐促进溴离子与氯的反应有关。

### 机器学习模型的优势与局限性

与传统的多元线性回归(MLR)模型相比,机器学习模型在预测DBPs方面表现出更高的灵活性和准确性。MLR模型通常难以捕捉复杂的非线性关系,而机器学习模型能够更好地处理这些关系。此外,机器学习模型的预测性能与数据量密切相关,因此,增加样本数量和提高数据的时空对比度,可能有助于进一步提高模型的预测能力和可迁移性。

然而,机器学习模型也存在一定的局限性。例如,当前的模型主要基于实验室条件下的氯化实验,而实际饮用水处理过程中,氯残留浓度可能有所不同,这可能影响模型的预测准确性。此外,尽管机器学习模型在预测某些DBPs时表现出色,但其在其他参数上的表现仍需进一步优化。因此,未来的研究需要结合更多的实际数据,并考虑不同水源条件下的模型适应性。

### 研究结论与展望

本研究展示了机器学习在预测DBPs方面的潜力,特别是在利用DOM光谱数据和水化学参数方面。通过开发一个基于R语言的可扩展工作流程,研究团队为饮用水处理厂提供了可行的在线监测和处理优化方案。这一方法不仅提高了预测的准确性,还降低了对昂贵的后处理DBPs缓解策略的依赖,从而有助于提高饮用水安全性和经济性。

未来的研究可以进一步扩大样本规模,提高模型的可迁移性,并探索不同水源条件下DBPs的形成机制。此外,结合实时DOM光谱数据采集和机器学习模型,水处理厂可以实现更加精准的消毒过程控制,从而更好地应对气候变化、水源褐化和不断变化的监管要求。这些进展不仅有助于保护公众健康,还可能为全球饮用水安全管理提供新的思路和技术支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号