基于Bagging-XGBoost模型与流域特征数据驱动的河流隐孢子虫浓度日预测及其在水资源管理中的应用

【字体: 时间:2025年06月21日 来源:Science of The Total Environment 8.2

编辑推荐:

  针对隐孢子虫(Cryptosporidium)抗氯消毒、低感染剂量特性导致的饮用水安全难题,本研究创新性地采用Bagging-XGBoost机器学习模型,结合7年实测数据与遥感特征,首次实现河流隐孢子虫浓度日尺度预测(>1 oocysts L?1预测准确率69-75%),揭示近源区降雨滞后效应(1-2天)与CSOs(合流制溢流)的关键影响,为水源调度决策提供重要技术支撑。

  

隐孢子虫(Cryptosporidium)作为一种耐氯消毒的水源性病原体,其极低感染剂量(<10个卵囊)和强环境耐受性,对全球饮用水安全构成严峻挑战。英国泰晤士河作为伦敦70%饮用水水源地,其隐孢子虫浓度波动直接影响600万居民健康。传统监测存在2天分析滞后期,导致水源调度决策滞后,可能使污染水体进入处理系统。更棘手的是,现有模型多限于月尺度预测或小流域应用,无法满足日尺度预警需求。面对这一公共卫生与水资源管理的双重难题,英国研究团队在《Science of The Total Environment》发表创新成果。

研究团队开发了集成Bagging(装袋)算法的XGBoost(极限梯度提升)模型,突破性地利用7年日分辨率隐孢子虫监测数据(2016-2023年沃尔顿取水口1,165个样本)与多源环境特征。关键技术包括:1) 流域分区法将9,300 km2流域划分为443个5×5 km网格;2) 创新性融合流域平均特征(降雨、土壤湿度)与空间分布特征(285个CSOs溢流事件);3) 基于河流传输速度的18天多时滞输入设计;4) SHAP(沙普利加性解释)可解释性分析。

研究结果方面:

  1. 模型性能验证:最优模型(5b)对>1和>2 oocysts L?1阈值预测F值分别达0.701和0.444,成功捕捉78-89%较高浓度事件的时序特征。
  2. 特征重要性:SHAP分析揭示2天滞后降雨影响最显著(最大SHAP值0.82),近源区(<30 km)降雨细胞贡献度比远源区高40%。
  3. 污染源解析:高影响力网格与人口密集区重合度达67%,但CSOs输入整体贡献度仅为降雨特征的1/3,暗示城市非人类源(宠物/野生动物)可能重要作用。
  4. 水文效应:流量变化率(1天滞后)显示床沙再悬浮效应,8-10月土壤湿度与温度协同影响病原体存活率。

讨论指出,该研究首次证实日尺度预测在大规模复杂流域的可行性,其非精简特征策略(保留90+个特征)有效克服了传统模型对特征工程的依赖。尽管存在空间分布数据同质化、CSOs二进制数据简化等局限,但模型成功将运营决策窗口提前48小时。研究还颠覆了传统认知——虽然牲畜源被普遍视为主要污染源,但人类活动密集区的降雨冲刷效应更具预测价值。

这项研究为全球水源性病原体预警提供了可推广的范式:1) 证明公开遥感数据与机器学习结合的实用性;2) 确立近源区监测的优先性;3) 开发出可兼容现有水质监测体系的预测框架。对于中国正在建设的"智慧水务"系统具有重要参考价值,特别是在长江、黄河等重要水源地的季节性病原体防控方面。未来研究可结合qPCR(定量PCR)分子溯源技术,进一步区分人类与非人类源贡献,并探索气候变化背景下极端降雨事件的放大效应。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号