基于多水域数据整合与机器学习优化蓝藻水华预测的聚类分析研究
《Journal of Contaminant Hydrology》:Optimal data pooling from multiple waterbodies to improve machine-learning predictions of cyanobacterial blooms
【字体:
大
中
小
】
时间:2025年10月28日
来源:Journal of Contaminant Hydrology 4.4
编辑推荐:
本研究针对单个水体监测数据量小限制机器学习模型泛化能力的问题,开展了一项关于如何优化整合多水域数据以提升蓝藻水华预测性能的研究。研究人员通过对韩国45个湖泊河流的蓝藻发生模式进行聚类分析,评估了随机森林和神经网络模型在数据整合策略下的预测效果。结果表明,基于聚类相似性整合数据能显著提升模型性能(RF提升约14%,NN提升约17%),且性能在数据集达到400-500个样本时趋于稳定。研究为利用多站点数据改善ML模型预测提供了实用指南,对区域协同管理和水资源保护具有重要意义。
随着全球气候变化和污染加剧,有害藻华的发生频率和范围在过去几十年里显著增加。蓝藻水华产生的毒素不仅破坏水生态系统,还通过娱乐和饮用水途径威胁人类健康。为了高效管理水处理工艺并主动最小化蓝藻水华带来的潜在风险,提供准确的早期预警至关重要。机器学习模型作为一种数据驱动的方法,已被广泛应用于藻华预测。然而,大多数监测点仅能提供小型的周度数据集,这严重限制了机器学习模型的泛化能力。虽然 pooling(整合)来自多个相似水体的数据可以增加样本量,但同时也引入了可能降低模型可转移性的异质性。因此,如何选择要整合的多站点水体数据集,以在增加样本量的同时管理异质性,成为一个亟待解决的关键问题。
为了回答上述问题,发表在《Journal of Contaminant Hydrology》上的这项研究,评估了一种基于站点级蓝藻水华直方图聚类分析的实用数据整合策略,并量化了整合数据如何影响使用随机森林和神经网络模型的蓝藻水华预测。
研究人员为开展此项研究,主要应用了以下几项关键技术方法:研究数据来源于韩国全国范围内45个蓝藻警报站点的公开监测数据,包括每周的蓝藻细胞密度、水温及其他水质参数。首先,通过对每个站点的蓝藻密度和水温数据构建直方图并进行层次聚类,将全国水体划分为不同的群组。其次,利用随机森林和神经网络两种机器学习模型,以7天为预测提前期,预测蓝藻密度。模型训练采用了10折交叉验证,并系统比较了仅使用单站点数据、基于聚类整合多站点数据以及跨聚类整合数据等不同策略下的预测性能。最后,通过特征重要性分析,揭示了影响不同区域蓝藻水华的关键环境因子。
3.1. 基于蓝藻发生模式的全国水体聚类
研究首先对全国45个站点进行了层次聚类分析,基于蓝藻发生模式和水温特征,将这些站点划分为8个群组。聚类结果显示,地理位置上相近的站点可能被分到不同的群组,而具有相似特征(如建有堰坝的河流)的站点则可能被归为一类。例如,洛东江上建有堰坝的两个站点(N-R-3和N-R-4)被聚为一类(集群1),这表明堰坝导致的流速减缓使得这些河段具有类似湖泊的特性。蓝藻密度总体上在南部地区(洛东江、锦江、荣山江)高于北部地区(汉江)。聚类分析成功地将具有相似蓝藻发生模式的水体归类,为后续的数据整合奠定了基础。
3.2. 基于聚类的数据集整合对模型的影响
模型预测性能评估显示,在24个站点中,大部分站点(19个)的测试Nash-Sutcliffe效率系数大于0.50,其中9个站点达到了良好性能(NSE ≥ 0.65)。随机森林模型在多个站点,尤其是洛东江的站点上表现优异。关键的发现是,基于聚类整合多站点数据训练模型,其性能显著高于使用单站点数据训练模型的平均性能。例如,对于集群1(2个站点)、集群4(4个站点)、集群5(13个站点)和集群6(3个站点),整合数据后随机森林模型的性能提升显著。随着训练数据集大小的增加,随机森林和神经网络的性能均呈现类似对数曲线的增长趋势,并在数据集大小达到400-500个样本点时性能趋于稳定。当整合数据的站点数量超过10个时,性能提升不再显著。此外,整合不同集群的数据效果不如整合集群内部数据,这表明基于聚类相似性进行数据整合的策略是有效的。
3.3. 集群模型对多站点预测的性能
研究还测试了使用单一集群数据集和全站点数据集训练的模型对其他站点(即跨集群预测)的预测能力。结果表明,使用集群1(洛东江堰坝站点)数据训练的模型,在预测蓝藻密度较高的站点时表现良好,即使是在其他集群的站点上。使用集群5(湖泊站点)数据训练的模型对集群1的预测性能也较高。相比之下,使用集群4(汉江下游及湖泊)和集群6(汉江上游)数据训练的模型倾向于低估其他站点的蓝藻密度。这些跨集群预测的结果进一步证实,建有堰坝的河流其蓝藻发生动态与湖泊相似。
3.4. 不同集群中与蓝藻水华相关的环境因子
通过随机森林模型的特征重要性分析,揭示了影响不同区域蓝藻水华的关键环境因子。水温是几乎所有站点和集群中最主要的预测因子。营养盐变量,如总氮和总磷,也具有重要作用,但其相对重要性因站点和集群而异。例如,在集群1(洛东江堰坝站点),水温、总氮、溶解氧和电导率是主要驱动因子;而在集群5(湖泊站点),水温、溶解氧、化学需氧量和总氮更为重要。电导率可能作为离子/营养盐负荷或低流速条件的替代指标,化学需氧量在湖泊中的重要性则反映了其与河流不同的有机负荷和分层过程。研究还发现,将气象和水文因子(如前期降雨量)纳入模型有助于提升预测性能,但水流速度在受堰坝调控的河流中贡献较小,这可能是由于其变异性较低所致。
4. 讨论与结论
本研究通过聚类分析成功地将全国水体按蓝藻发生模式分组,并证明基于聚类相似性整合多站点数据能有效提升机器学习模型(随机森林和神经网络)对蓝藻水华的预测性能。性能提升在数据集大小达到400-500个样本点时趋于稳定,且当整合数据的站点来源少于10个时增益最大。跨集群预测表明,受调控的河流表现出与湖泊相似的动态。特征重要性分析确认了水温和营养盐的核心驱动作用,同时揭示了不同水体类型驱动因子的异质性。
这项研究的重要意义在于它为解决小样本数据集限制机器学习模型性能的普遍问题提供了一个实用、可操作的框架。所提出的基于聚类分析的数据整合策略,能够在不引入过多异质性的前提下,有效扩大训练数据集,从而提升模型的泛化能力和预测准确性。这不仅有助于改善单个水体的蓝藻水华预警,也为区域乃至国家尺度的水资源协同管理和风险防控提供了科学依据和技术支持。研究结果指出,未来在利用机器学习预测环境现象时,应优先考虑整合具有相似特征水体的数据,并关注关键环境驱动因子的一致性。这项工作为大规模环境数据的高效利用和精准预测模型的构建指明了方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号