1940-2023 年全球地表水水质综合数据集:填补研究空白,助力水资源管理

【字体: 时间:2025年03月07日 来源:Scientific Data 5.8

编辑推荐:

  研究人员为解决全球地表水水质数据局限,构建综合数据集,可支持 WQI 模型分析及 ML 研究,意义重大。

  在地球的生态系统中,地表水(如河流、湖泊等)是维持生命运转的关键自然资源,它不仅滋养着万物生长,还在生态平衡中扮演着不可或缺的角色。然而,近年来,随着城市化、工业化和农业的快速发展,大量污染物不断涌入地表水,其水质恶化问题日益严重。这不仅破坏了生态系统的稳定,还对人类健康和社会经济发展构成了巨大威胁。因此,准确评估和有效监测地表水水质,对保障生态安全和人类福祉至关重要。
为了实现这一目标,众多国家纷纷制定相关政策和准则,如欧盟的《水框架指令》(WFD),旨在确保水体达到良好的环境状态。而水质评估依赖于科学的模型和准确的数据支持,其中水质指数(WQI)模型能够将复杂的水质参数转化为直观的数值,方便人们对水质进行分类和评估。但现有的全球地表水水质数据集存在诸多不足,例如数据覆盖范围有限、参数和测量单位不统一、时空分辨率较低等,难以满足日益增长的研究和决策需求。

在此背景下,来自独立大学(Independent University)的 Md. Rajaul Karim、M. M. Mahbubul Syeed 等研究人员,开展了一项构建综合地表水水质数据集的研究。该研究成果发表在《Scientific Data》上,为全球地表水水质研究提供了新的有力支持。

研究人员在构建数据集时,采用了一系列严谨且复杂的技术方法。首先,在数据采集阶段,他们通过全面查阅相关研究文章和分析报告,制定了详细的数据采集指南。利用谷歌数据集搜索(Google Dataset Search),结合严格的筛选标准,从多个数据源中精心挑选出 15 个数据来源,下载了 2343 个数据集。这些数据源涵盖了全球和区域的水质数据库、政府组织、水管理委员会等。随后,对初始数据集进行了一系列处理,包括数据格式转换、筛选出五个国家(美国、加拿大、爱尔兰、英国和中国)的数据、确定八个共同的水质参数(氨()、五日生化需氧量()、溶解氧(DO)、正磷酸盐()、酸碱度(pH)、温度、氮(N)和硝酸盐()) ,并去除了参数数量不符或缺失值过多的数据行,最终得到 282 万条数据记录。

在数据处理和协调阶段,针对数据中存在的语言、日期格式、参数命名和单位不一致等问题,研究人员编写了大量 Python 脚本进行处理。例如,使用谷歌翻译和自定义词汇表将中文和法文的参数术语转换为英文;编写脚本将不同格式的日期统一转换为标准格式;统一参数命名和单位,如将氮的各种不同表述统一为 “氮(N)”,将单位 “克 / 升” 转换为 “毫克 / 升” 等。对于数据中的缺失值,采用中位数插补技术进行处理,并根据加拿大环境部长理事会(CCME)的模型计算 WQI 并进行分类,为后续的研究提供了更规范、更具可用性的数据基础。

在完成数据集的构建后,研究人员对其进行了全面的技术验证。具体包括数据分布评估、异常值检测、水质趋势分析以及在机器学习模型中的应用测试。

数据分布评估结果显示,综合数据集中各参数的均值大多在标准范围内,但部分参数存在一定的变异性,且少数参数的最小值和最大值超出范围,表明可能存在异常值。通过进一步采用 Tukey 的异常值检测方法,研究发现各参数异常值的百分比相对较低,对大多数应用中模型的性能影响较小。

水质趋势分析通过绘制 CCME WQI 分类的趋势图,展示了不同国家地表水水质的时间变化特征。例如,中国(海湾水)的 WQI 在 365 天内大多处于 80(良好)至 100(优秀)之间;英格兰(河水)的 WQI 介于 65(中等)至 85(良好)之间;爱尔兰(河水)的 WQI 在 75(中等)至 95(优秀)范围内;美国(河水)的 WQI 表现最佳,处于 90 - 100(优秀)区间;加拿大(河水)的 WQI 则呈现出较大波动,在 50(边缘)至 100(优秀)之间变化。

在应用数据集进行机器学习模型测试时,研究人员选择了四个经典机器学习模型(线性回归、决策树回归、随机森林回归和 XGBoost 回归)和两个深度学习模型(人工神经网络(ANN)和长短期记忆网络(LSTM)) 。结果表明,经典机器学习模型中的决策树回归和随机森林回归在训练和测试数据集上表现更为出色,其均方误差(MSE)分别为 0.0001 和 0.0001,均方根误差(RMSE)为 0.012 和 0.012,平均绝对误差(MAE)为 0.0002 和 0.0002,决定系数()达到 0.99 和 0.99,预测的 WQI 值与实际值拟合度较高。

总的来说,这项研究成功构建了一个 1940 - 2023 年的全球地表水水质综合数据集,涵盖了五个国家的 282 万条水质测量记录和八个关键水质参数。该数据集不仅解决了现有数据的局限性,还为后续的研究和决策提供了坚实的数据基础。它可以用于开发、校准和验证 WQI 模型,研究全球和跨区域地表水水质的时空驱动因素和模式,以及训练和测试机器学习模型,从而更准确地预测和预报水质变化。此外,通过对水质长期趋势的分析,有助于评估水质对生态系统健康和人类社会的影响,为制定水资源管理和保护策略提供科学依据。

然而,该研究也存在一定的局限性。数据集仅涵盖了五个国家,无法完全代表全球的水质状况;不同国家之间水质标准和监测方法的差异,可能导致数据存在偏差。但这并不影响该研究成果的重要价值,后续研究人员可以在此基础上进一步拓展数据集,完善研究方法,为全球水资源保护和可持续发展做出更大的贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号