
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习模型的饮用水水库中总大肠菌群和大肠杆菌预测研究
【字体: 大 中 小 】 时间:2025年06月22日 来源:Journal of Water Process Engineering 6.3
编辑推荐:
针对饮用水微生物检测存在的实验室基础设施不足、分析周期长等问题,研究人员采用人工神经网络(ANN)和随机森林(RF)算法,开发了总大肠菌群(TC)和大肠杆菌(E. coli)的预测模型。结果显示RF模型平均准确率达77.8%-80.3%,污染样本识别率78.7%-81.4%,可显著缩短检测时间并降低资源消耗,为发展中国家水质监测提供创新解决方案。
饮用水安全一直是全球公共卫生领域的重大挑战。在发展中国家,微生物污染检测面临实验室基础设施薄弱、检测周期长、成本高昂等困境,导致约60%的巴西城市无法完成水质采样目标。传统培养方法需要24小时以上孵育,难以及时预警风险。而现有预测模型多依赖溶解氧等昂贵参数,难以普及应用。
针对这一难题,巴西坎皮纳联邦大学环境卫生跨学科组(GISA)的研究团队在《Journal of Water Process Engineering》发表创新研究。他们利用巴西国家饮用水质量监测系统(SISAGUA)超过180万份样本数据,开发了基于机器学习的总大肠菌群(TC)和大肠杆菌(E. coli)预测模型。研究采用地理分流域策略,通过人工神经网络(ANN)和随机森林(RF)算法,仅需余氯(FRC)等易获取参数即可实现快速预测。
关键技术包括:1) 从SISAGUA系统获取2014-2024年饮用水水库和管网样本数据;2) 采用多重插补处理缺失的FRC值;3) 基于特征重要性分析筛选pH、浊度等核心参数;4) 分流域训练ANN和RF模型,通过10折交叉验证评估性能。
材料与方法
研究构建了包含673,000条有效记录的数据集,通过SHAP值分析确定FRC、pH、浊度等7个关键输入变量。采用SMOTE算法解决数据不平衡问题,并建立34个流域特异性模型。
结果分析
RF模型在90%案例中优于ANN,TC和E. coli预测准确率分别达77.8%和80.3%,污染样本识别率78.7%-81.4%。模型性能与实验室方法相当,66%流域符合国际标准。特征重要性显示FRC是最具预测力的参数,贡献度超30%。
结论与意义
该研究首创了适用于饮用水系统的微生物预测模型,其优势在于:1) 仅需常规水质参数,成本降低80%;2) 将检测时间从24小时缩短至分钟级;3) 分流域建模策略适应地理差异。已申请巴西专利(BR 1020240212797),为资源匮乏地区提供了可行的监测替代方案。研究成果对实现联合国可持续发展目标(SDG6)具有重要实践价值,尤其为热带地区国家水质管理树立了新范式。
生物通微信公众号
知名企业招聘