面向可及性水库水质监测的Google Earth Engine与机器学习集成框架
《Environmental Modelling & Software》:Accessible Reservoir Water Quality Monitoring: An Integrated Google Earth Engine and Machine Learning Framework
【字体:
大
中
小
】
时间:2025年11月05日
来源:Environmental Modelling & Software 4.6
编辑推荐:
本文针对传统原位水质监测成本高、覆盖有限的难题,介绍了一种集成Google Earth Engine (GEE)无代码工具包与自动化机器学习(ML)流程的创新框架。该研究通过处理Landsat 8/9和Sentinel-2影像,并结合阿曼Wadi Dayqah Dam水库的现场CTD剖面数据,成功训练出本地校准的集成模型,对叶绿素a (Chl-a)、浊度和水面温度(WST)等关键参数实现了高达R2 0.84的预测精度。该开源框架为非专家用户提供了可扩展的数据驱动水质评估方案,对数据稀缺地区的水库管理具有重要意义。
在全球水资源日益紧张的背景下,水库和湖泊作为液态地表淡水的主要储存体(供应量超过87%),在饮用水供给、农业灌溉、水力发电和防洪等方面扮演着至关重要的角色。然而,这些宝贵的水资源正面临着富营养化、化学污染以及气候变化带来的多重压力。农业径流和未经处理的污水导致水体富营养化,引发藻类水华,消耗水中氧气,甚至产生有害的蓝藻毒素,严重破坏水生生态系统的平衡。与此同时,工业和生活源头的化学污染物进一步威胁水质安全。气候变化则通过改变降水模式和升高水温,加剧了藻类暴发和污染物积累的风险。因此,对叶绿素a (Chlorophyll-a, Chl-a)、浊度 (Turbidity) 和水面温度 (Water Surface Temperature, WST) 等关键水质参数进行持续监测,已成为水库有效管理和可持续发展的核心环节。
传统的监测方法严重依赖现场采样和实验室分析,虽然精度高,但成本昂贵,且时空覆盖范围极其有限。这种点状采样方式难以捕捉到局部的污染羽流或突发的藻类水华,而低频次的采样很可能错过由径流或风暴引起的短期水质变化。卫星遥感技术,如Landsat 8/9和Sentinel-2,提供了大范围、周期性的数据获取能力,为突破传统监测的局限带来了希望。然而,大气干扰(如云、气溶胶、水蒸气)限制了其直接应用,需要复杂的大气校正流程。此外,部分传感器空间分辨率较低(例如Landsat的30米),使其在小型水库监测中的应用受限。更重要的是,内陆水体的光学特性复杂,没有一个通用的水质反演模型,必须依赖现场数据进行站点特异性的校准。
近年来,Google Earth Engine (GEE) 云计算平台与机器学习 (Machine Learning, ML) 技术的结合,为水质遥感监测带来了革命性的进展。尽管已有许多研究成功利用GEE和随机森林 (Random Forest) 等算法绘制了浊度、叶绿素a等参数,但这些方法通常需要较强的编程能力,将许多非专业用户(如地方水务管理部门、环境从业者)挡在了门外。并且,大多数研究要么提供一个独立的GEE脚本,要么是一个本地化的ML模型,缺乏一个将交互式数据探索、自动化数据提取和用户友好的无代码建模流程无缝集成的一体化框架。
为了解决上述挑战,由Zeinab Yavari、Amirreza Shahmiri和Mohammad Reza Nikoo组成的研究团队在《Environmental Modelling 》上发表了一项研究,提出了一种新颖的、集成的框架。该框架的核心目标是降低技术门槛,实现可及、可扩展且精准的水库水质监测。研究以阿曼Wadi Dayqah Dam (WDD) 水库为案例,验证了该框架的有效性。
为开展此项研究,研究人员主要应用了几项关键技术。首先,他们开发了一个运行于Google Earth Engine (GEE) 平台上的无代码交互式工具包,用于处理Landsat 8/9 Collection 2 Level-2和Sentinel-2 Level-2A地表反射率数据,并计算一系列水质指数。其次,研究整合了来自WDD水库的564个原位电导率-温度-深度 (Conductivity-Temperature-Depth, CTD) 剖面数据,经过与卫星影像时空匹配后,获得489个有效匹配点用于模型训练。第三,研究构建了一个自动化的机器学习 (ML) 管道,该管道集成了自动化特征选择功能,并训练了多种先进的算法,包括XGBoost、随机森林 (Random Forest) 以及堆叠集成 (Stacking Ensemble) 模型,旨在建立卫星光谱特征与水质参数之间的复杂非线性关系,并进行本地化校准。
本研究的方法论基于一个集成的框架,该框架将GEE无代码工具包与自动化ML管道相结合。材料主要包括Landsat 8/9、Sentinel-2卫星影像和阿曼WDD水库的原位CTD测量数据。方法涉及利用GEE工具包进行影像预处理(大气校正、云掩蔽、图像合成)和水质指数计算,随后通过点对点提取工具将卫星数据与现场测量值对齐,最后使用ML管道进行特征选择和模型训练,以估算Chl-a、浊度和WST。
研究首先展示了GEE工具包在无需编程的情况下,快速计算多种水质指标的能力。工具包能够基于经验算法生成如有色可溶性有机物 (CDOM) 等参数的空间分布图,为用户提供水库水质的宏观、定性洞察。这部分功能特别适用于缺乏原位数据的区域,进行趋势性分析和初步评估。
案例研究结果表明,经过本地校准的ML模型对关键水质参数表现出强大的预测能力。对于Chl-a、浊度和WST的估算,模型达到了最高0.84的决定系数 (R2)。堆叠集成模型 (Stacking Ensemble) 综合了多个基学习器(如XGBoost、CatBoost)的优势,表现出优于单一模型的准确性和鲁棒性。这证明了基于原位数据对模型进行本地校准,对于克服内陆水体光学复杂性、获得高精度反演结果至关重要。
研究讨论部分强调了将灵活的无代码GEE工具包与强大的自动化ML管道相结合的方法论优势。模型的高预测精度 (R2 达0.84) 印证了本地校准在复杂光学水体水质反演中的必要性,这也是本框架设计的核心原则。讨论还指出,该集成框架成功弥补了现有研究中操作化和可及性方面的差距。无代码界面极大地降低了非专业用户的使用门槛,而端到端的自动化流程则提高了监测效率。同时,研究也承认了框架的局限性,例如对无云影像的依赖以及在高浊度或极端藻华条件下模型性能可能面临的挑战。
本研究成功开发并验证了一个用于水库水质监测的可扩展集成框架。其主要贡献包括:(1)创建了一个结合GEE无代码工具包和高效Python ML管道的可扩展系统,通过用户友好界面处理卫星数据并计算水质指数。(2)构建的ML模型经过本地校准后,对Chl-a、浊度和WST等关键参数表现出高预测精度。(3)该框架具备双重功能:既可在缺乏原位数据时进行定性趋势分析,也可在拥有训练样本时进行高精度的本地化预测。这项工作为数据稀缺地区的可持续水库管理提供了一个强大、易用的工具,推动了先进遥感监测技术的民主化应用。
CRediT authorship contribution statement
Amirreza Shahmiri:负责初稿撰写、可视化、软件、方法论、研究调查、形式分析、概念化。Zeinab Yavari:负责审阅与编辑、验证、资源、方法论、资金获取、概念化。Mohammad Reza Nikoo:负责审阅与编辑、可视化、验证、监督、方法论、数据管理、概念化。
软件名称:WQM-GEE-ML (Water Quality Monitoring using Google Earth Engine and Machine Learning)
软件要求:需要Google Earth Engine账户(JavaScript或Python API访问权限)以及Python ≥ 3.8环境,并安装pandas, numpy, matplotlib, seaborn, scikit-learn, xgboost, catboost等关键库。
综上所述,这项研究通过巧妙整合云计算与人工智能技术,为克服传统水质监测的瓶颈提供了一个创新性的解决方案。其核心价值在于将尖端的遥感与ML技术“平民化”,使更广泛的专业人士和决策者能够参与到精准、高效的水环境管理实践中,对全球范围内,特别是数据获取困难地区的水资源保护与可持续利用具有深远的积极影响。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号