基于地理加权的机器学习方法,用于预测地下水硝酸盐氮(NO?-N)浓度的空间分布

《Journal of Hydrology》:Geographically weighted machine learning for predicting the spatial distribution of groundwater nitrate nitrogen (NO 3-N) concentration

【字体: 时间:2025年10月25日 来源:Journal of Hydrology 6.3

编辑推荐:

  本研究基于韩国济州岛的数据,利用地理加权随机森林(GWRF)及其与传统机器学习模型(CMLMs)对比,预测地下水硝酸盐浓度(GWN)空间分布。结果表明GWRF在模型精度(R2=0.778)和空间无偏性(Moran's I=0.039)上显著优于其他模型。关键影响因素包括平均海拔、重粘土比例、农业用地比例及邻近污染源。研究为区域污染治理提供了科学依据。

  地下水污染是全球范围内一个日益严峻的环境问题,尤其是在农业活动频繁的地区,氮污染尤其严重。在韩国的济州岛,由于其独特的地质结构和多样的土地利用模式,地下水的氮含量问题更为突出。本研究通过结合地理加权结构和机器学习模型,提出了一种新的方法来预测济州岛地下水硝酸盐氮(NO??N)的分布情况,并与五种传统的机器学习模型(CMLMs)进行对比,以评估其预测性能和模型的稳健性。同时,使用Shapley Additive Explanations(SHAP)分析来识别影响地下水硝酸盐氮的关键因素,从而为地下水管理提供科学依据。

济州岛是韩国最大的岛屿,面积约为1829平方公里,距离大陆南部海岸约130公里。作为火山岛,其地质结构主要由玄武岩和火山灰组成,这导致了地下水储量的高容量。济州岛的地下水占总水资源的90%以上,因此其地下水质量对居民生活和农业用水具有重要影响。然而,由于农业活动的增加和动物养殖带来的污染,地下水中的硝酸盐氮含量明显升高,仅有9%的地下水监测井样本符合饮用水标准(NO??N ≤ 10mg/L)。因此,有必要深入研究地下水硝酸盐氮的分布情况,以制定有效的污染防控措施。

为了预测整个岛屿的地下水硝酸盐氮分布,本研究首先将岛屿划分为多个网格,并使用地理信息分析方法为每个网格准备了19个影响因素。随后,通过计算每个网格的平均硝酸盐氮含量,评估了模型的预测准确性。本研究选择使用地理加权随机森林(GWRF)作为主要的模型,因为其在多种研究中表现出良好的性能。为了验证GWRF的性能,研究还使用了五种传统的机器学习模型(CMLMs)作为对比模型,包括随机森林(RF)、极端梯度提升(XGB)、自然梯度提升(NGB)、支持向量机(SVM)和多层感知器(MLP)。SHAP分析用于识别影响地下水硝酸盐氮的关键输入变量,并最终对整个网格进行硝酸盐氮和残差的空间映射,以验证模型的稳健性。

在模型的构建过程中,研究采用了Python 3.8.8语言,并使用了多种Python库,包括scikit-learn、XGBoost、NGBoost和TensorFlow。为了处理输入数据中的空间非平稳性,研究开发了地理加权机器学习模型(GWMLMs),将其与传统的机器学习模型相结合。其中,GWRF作为最常用的模型,通过在每个数据点上建立本地模型,结合地理加权回归(GWR)的方法,提高了模型的预测能力。在特征选择和数据预处理过程中,研究采用方差阈值法,以减少模型复杂度并避免过拟合。数据经过标准化处理后,被划分为训练集、验证集和测试集,以评估模型的性能。

研究结果表明,GWRF在预测济州岛地下水硝酸盐氮的分布方面表现出优于传统机器学习模型的性能。通过SHAP分析,研究确定了影响地下水硝酸盐氮的关键因素,包括平均海拔、重粘土田和农业区的比例,以及城市区域的分布。这些结果表明,结合地理加权结构与机器学习模型的方法在地下水建模中具有潜力,能够有效处理空间异质性问题。此外,研究还发现,GWRF在空间分布预测中表现出更高的准确性,并且其残差表现出较低的空间自相关性,这表明模型能够提供更可靠的空间分布预测。

研究还探讨了模型的预测性能和变量的重要性。通过SHAP分析,研究确定了各个模型中影响地下水硝酸盐氮的关键变量,并对这些变量的贡献进行了量化分析。研究发现,平均海拔对地下水硝酸盐氮的影响最为显著,而农业区和城市区的比例也是重要的影响因素。此外,重粘土田和私人污水处理设施的数量对地下水硝酸盐氮的预测也具有重要作用。这些结果与之前的研究相一致,表明这些变量在地下水污染中起着关键作用。

研究还对地下水硝酸盐氮的空间分布进行了预测,并与观测数据进行了比较。研究发现,所有机器学习模型在预测空间分布时都表现出相似的模式,即地下水硝酸盐氮在岛屿的中心高地较低,而在沿海低地较高。同时,模型预测结果中,超过饮用水标准的网格主要集中在岛屿的西部地区。此外,研究还发现,GWRF的残差表现出更弱的空间自相关性,这表明模型能够更有效地处理空间异质性问题,提供更准确和空间无偏的预测结果。

本研究的结论表明,结合地理加权结构与机器学习模型的方法在地下水建模中具有潜力,能够有效处理空间异质性问题。GWRF在预测地下水硝酸盐氮的空间分布方面表现出优于传统机器学习模型的性能,其预测结果的残差表现出更弱的空间自相关性,表明模型能够提供更可靠的空间分布预测。然而,研究也指出,这种方法在处理缺乏观测数据的网格时仍存在一定的局限性,需要进一步的研究和数据验证。此外,研究还发现,模型的预测性能受到空间分辨率和网格大小的影响,因此未来的研究应探索这些参数对模型性能和泛化能力的影响,以优化模型的准确性和适用性。研究还指出,未来的研究应考虑将时间动态数据和更多影响因素整合到模型中,以获得更准确的地下水污染预测结果。

总之,本研究通过结合地理加权结构与机器学习模型的方法,成功预测了济州岛地下水硝酸盐氮的空间分布,并与传统机器学习模型进行了对比。研究结果表明,这种方法在处理空间异质性问题方面具有优势,能够提供更准确和空间无偏的预测结果。此外,SHAP分析揭示了影响地下水硝酸盐氮的关键因素,包括平均海拔、重粘土田和农业区的比例,以及私人污水处理设施的数量。这些结果为地下水污染的防控提供了科学依据,并为未来地下水建模和管理提供了重要的参考。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号