编辑推荐:
为解决水库水质监测与预测问题,研究人员开展了利用机器学习(ML)算法基于减少的预测指标评估水库水质的研究。结果表明,多种 ML 算法预测水质(WQI 指数)表现良好,且减少指标也可行。这为水质管理提供了有效方法。
在地球的水资源宝库中,淡水仅占地表水资源的 2.5%,且其中只有 1% 可供人类使用。湖泊和河流等地表水库作为重要的淡水来源,其水质状况直接关系到人类的生存与生态环境的稳定。然而,近年来,人类活动的加剧和自然环境的变化,让水库水质面临着严峻的挑战。大量的营养物质和污染物随着城市径流、农业活动等进入水体,导致湖泊富营养化,藻类大量繁殖,不仅影响了水的口感和气味,还增加了饮用水处理成本,对陆地和水生生态系统造成了负面影响。
传统的水质评估方法往往依赖于复杂的参数测定和分析,不仅耗时费力,而且难以准确反映水质的综合状况。在这样的背景下,利用机器学习算法来快速、准确地评估水库水质,成为了研究人员关注的焦点。
来自国外的研究人员开展了一项旨在评估利用机器学习算法基于减少的预测指标来确定水库水质可行性的研究。他们通过对位于 Cybina 河流域集水区的水库进行研究,利用水质指数(WQI)来评估水质,并使用四种不同的机器学习算法,即神经网络模型(NNM)、随机森林(RF)、k - 最近邻(KNN)和线性回归(LR),基于选定的 5 个水质指标(P、N 总、COD、BOD5和总悬浮固体 TS)对模型进行训练。研究人员还分析了减少预测指标对模型预测能力的影响,确定了影响 WQI 的关键指标。
研究结果表明,多种机器学习算法在预测水库水质方面表现出了良好的性能。当使用全部 5 个预测指标时,NNM 和 LR 算法的 R2达到了 0.999,KNN 算法的 R2为 0.981,RF 算法的 R2为 0.968 。这意味着这些算法能够高度准确地预测水质状况。当减少预测指标时,研究发现选择对 WQI 影响最大的 3 个指标(P、COD 和 N 总)作为预测指标,对预测质量的影响较小,R2仍大于 0.965 。而选择对 WQI 影响最小的 3 个指标(COD、BOD5和 TS)作为预测指标时,各算法的预测质量显著下降,R2在 0.837(NNM)到 0.897(KNN)之间。当仅考虑 P 和 N 总这两个指标时,除 LR 算法外,其他算法的预测质量通常比使用影响最小的 3 个指标时更好,其中 RF 算法的 R2达到了 0.941 。
研究人员为开展这项研究,主要采用了以下关键技术方法:在数据收集方面,从 9 个测量点采集水样,这些测量点涵盖了不同类型的土地利用区域,以获取全面的水质数据。在数据分析阶段,运用主成分分析(PCA)对数据进行降维处理,以识别对水质有重要影响的变量。通过计算水质指数(WQI),将多个水质参数综合为一个数值,便于评估水质。使用神经网络模型(NNM)、随机森林(RF)、k - 最近邻(KNN)和线性回归(LR)这四种机器学习算法对水质进行建模和预测,并通过优化模型参数来提高预测准确性。
在具体的研究结果中,通过对各水库不同指标的监测分析发现,磷(P)在各湖泊的负荷水平相似,观测期末有上升趋势,冬季浓度最低;生化需氧量(BOD5)在冬季达到最高负荷,之后显著下降;化学需氧量(COD)在观测期内呈现波动变化,特定时间段有明显上升;总氮负荷在多数监测点较为稳定,但部分点有大幅增加。通过 WQI 指数分析可知,各水库在特定月份水质较好,其余月份较差,磷和总氮是影响 WQI 指数的主要因素。
在相关性分析中,发现 BOD5和 COD 之间存在高相关性,而 BOD5和 NO2几乎没有相关性。主成分分析(PCA)表明,前两个主成分变量能够描述数据集 83.88% 的变异性,与有机化合物和 COD 相关的变量对主成分影响较大。
机器学习分析显示,不同算法在使用不同数量预测指标时表现各异。整体上,所有算法在使用全部 5 个指标时预测效果良好,但随着预测指标减少,预测质量有所下降。不过,选择合适的少量指标仍能实现较好的预测效果。
综上所述,这项研究具有重要意义。研究结论表明,机器学习技术可以成功应用于水库水质分析和预测。通过构建减少预测指标的机器学习模型,在缺乏完整测量数据时也能实现快速水质预测,为水资源管理提供了有力支持。这一研究成果发表在《Ecological Indicators》上,为相关领域的研究和实践提供了重要参考,有助于推动水资源管理的科学化和智能化,为保护水库水质、保障生态系统健康和人类用水安全提供了新的思路和方法 。