利用Landsat影像和机器学习技术,评估长江中下游流域湖泊和水库中叶绿素a浓度四十年的时空变化

《International Journal of Applied Earth Observation and Geoinformation》:Assessing four-decade spatiotemporal changes of chlorophyll-a concentration in lakes and reservoirs of the mid-lower yangtze river basin using landsat imagery and machine learning

【字体: 时间:2025年11月09日 来源:International Journal of Applied Earth Observation and Geoinformation 8.6

编辑推荐:

  本研究基于Landsat-5 TM和8 OLI影像,开发梯度提升决策树模型,构建了长江中下游流域40年湖泊及水库叶绿素a浓度时空数据集。结果显示,Dongting和Poyang湖Chla最高,Han和Taihu最低,空间分布与降水、温度显著相关(72.4%),2005-2007年后Chla总体呈下降趋势,与夜间灯光(NTL)及GDP等社会经济因素密切相关(占65%)。

  ### 湖泊和水库的叶绿素-a时空变化及其影响因素分析

在长江中下游流域(MLYRB)内,富营养化已成为一个长期存在的环境问题,不仅影响水安全,还对区域可持续发展构成挑战。由于卫星观测的空间和时间覆盖范围有限,以及不同卫星传感器之间的不一致性,对MLYRB中湖泊和水库的叶绿素-a(Chla)长期变化的研究尚未充分展开。本研究旨在填补这一空白,利用Landsat影像生成一个覆盖1984年至2024年的Chla数据集,涵盖面积超过1平方公里的湖泊和水库。通过使用Landsat-5 TM和Landsat-8 OLI影像,我们开发了一种基于梯度提升决策树(GBDT)的机器学习方法,用于估算Chla,并结合了235组同步的卫星与现场观测数据进行校准。该模型在测试数据集上表现出色(R2=0.78,RMSLE=0.21,AURE=29.6%),随后被应用于重建1984年至2024年间MLYRB内湖泊和水库的年度Chla分布图。重建结果表明,Chla在洞庭湖和鄱阳湖子流域达到最高(分别为27.9±2.5和27.8±2.7 mg/m3),而在汉江和太湖子流域则相对较低(分别为22.7±2.5和22.8±2.1 mg/m3)。从空间分布来看,Chla与降水量和温度密切相关,两者共同解释了72.4%的空间变异性。在2005年至2007年间,Chla出现了显著的转折,平均值达到27.6±8.5 mg/m3,整体趋势从波动上升转变为下降。从时间变化来看,Chla的波动主要与气象因素,尤其是夜间灯光(NTL)和国内生产总值(GDP)相关,这些因素解释了65%的时间变异性。本研究提供了首个基于Landsat影像的近四十年的Chla数据集,为理解水质动态和制定基于科学依据的环境管理措施提供了关键支持。

### 研究区域与数据描述

本研究聚焦于MLYRB内面积超过1平方公里的湖泊和水库,覆盖多个省份,以宜昌为界,区分上中下游。该区域包括多个重要水体,如鄱阳湖、洞庭湖、巢湖、太湖和丹江口水库,这些水体在提供水资源和维持区域生态系统方面发挥着关键作用。然而,随着经济的快速发展和人类活动的增加,该地区的富营养化问题日益严重,水质下降,威胁着当地的饮用水安全。为了确保数据的一致性,我们仅保留了MLYRB内的采样点,并对Chla进行了标准化处理,去除了重复记录。最终整合的数据集包含了唯一且有效的测量值。

### 数据集与处理方法

本研究主要使用了Landsat-5 TM和Landsat-8 OLI影像作为主要数据源。从1984年到2024年,覆盖MLYRB内的Landsat TOA影像通过Google Earth Engine(GEE)平台获取。Landsat-5 TM数据覆盖1984年至2011年,而Landsat-8 OLI数据则从2013年到2024年。由于Landsat-7 ETM+影像自2003年以来存在持续的条纹伪影问题,因此被排除在外。2012年没有数据,这一年度差距在四十年的Chla时间序列中被认为是可以忽略的。所有Landsat影像的预处理均在GEE平台上完成,包括云和阴影掩膜处理、水体识别、岸线缓冲、湖泊和水库提取,以及蓝藻水华和水生植被的掩膜处理。经过预处理,我们保留了14,840组高质量的Landsat TOA影像,包括9,573组TM影像和5,267组OLI影像。图像可用性统计显示,1984年至1986年的可用影像数量相对较少,这主要是由于早期数据归档不完整以及中国当时接收站数量有限,导致该区域未能完全覆盖。因此,这一时期被排除在后续分析之外。

为了确保数据质量和代表性,我们对现场Chla测量值与Landsat-8 OLI影像进行匹配,形成了匹配数据集。匹配标准包括排除受云、霾或藻类水华影响的采样点、去除极端的Chla异常值、选择与影像获取时间在±7天内的现场测量值以平衡样本量和时间相关性,以及去除3×3像素窗口内变异系数(CV)大于30%的样本,以确保空间一致性。最终保留了293组有效的Chla匹配数据,浓度范围从1.6到233.9 mg/m3,平均值为25.2±5.8 mg/m3。该数据集主要覆盖了太湖、鄱阳湖、巢湖和梁子湖等主要湖泊,其中Chaohu Lake、Honghu Lake和Houhu Lake的Chla浓度较高(>50 mg/m3),而丹江口水库和泽林水库的Chla浓度较低(<10 mg/m3)。总体而言,Chla匹配数据涵盖了广泛的富营养化状态,为模型的校准和验证提供了可靠支持。

此外,我们还利用辅助数据集分析了影响Chla时空变化的因素,包括气象因素和人为因素。气象因素如气温、降水量和风速来源于欧洲中期天气预报中心(ECMWF)提供的ERA5-Land数据集。人为因素包括夜间灯光(NTL)、国内生产总值(GDP)和农业化肥使用量(FC)。NTL数据来源于国家青藏高原数据中心,而GDP和FC数据则从中国统计年鉴中提取。所有数据集均被裁剪至MLYRB边界,以确保与研究区域的一致性。详细的每组数据信息在附表S1中提供。

### 方法部分

本研究的流程分为三个阶段:数据准备、模型开发与评估,以及模型应用。数据准备阶段包括影像预处理和将卫星观测与现场测量对齐。模型开发阶段涉及特征选择、选择合适的机器学习算法以及评估其性能。由于自2013年以来同步的Chla观测值与Landsat-8 OLI影像较为丰富,因此主要使用Landsat-8 OLI TOA影像和现场数据进行模型开发,随后应用于Landsat-5 TM影像。为了测试模型性能,我们还使用了一小部分同步的Landsat-5 TM数据。

在模型开发过程中,我们考虑了一系列候选特征,包括单波段反射率、波段比值、光谱指数和物理属性。这些特征与Chla相关,并在以往的研究中被广泛应用于内陆水域的Chla估算。我们对不同的特征组合进行了评估,以确定最优的输入特征集。经过优化,我们发现使用OLI单波段(B、G、R、NIR)、光谱指数(NIR-RI)和地表温度(LST)的组合能够获得最高的模型精度(R2=0.78,RMSLE=0.21,AURE=29.6%)。然而,当引入更多光谱指数(如BGI、BRI、RGI和FLH)时,模型性能下降(R2=0.67,RMSLE=0.26,AURE=40.9%),这表明增加更多特征并不一定带来更好的结果。值得注意的是,当排除NIR-RI和LST时,模型精度进一步下降(R2=0.57,RMSLE=0.30,AURE=45%),与包含这些变量的GBDT-5和GBDT-8模型相比,这说明NIR-RI和LST的结合显著提升了模型性能。NIR-RI在富营养化湖泊中的有效性已被确认,而LST作为物理环境变量,捕捉了温度对浮游植物动态的影响。此外,模型的内部特征重要性分析显示,NIR-RI和LST是最关键的特征,分别贡献了24.4%和23%的模型性能提升。因此,使用B、G、R、NIR、NIR-RI和LST的GBDT模型代表了最优的Chla估算配置。

### 模型性能评估

为了评估模型的性能,我们使用了20%的独立测试数据集。结果显示,GBDT模型在Chla估算中表现最佳(R2=0.78,RMSLE=0.21,AURE=29.6%),其预测值在1:1线上分布均匀,表明没有明显的系统性偏差。虽然随机森林(RF)模型在Chla估算中也表现出色(R2=0.79,RMSLE=0.21,AURE=33.8%),但在低和高Chla值的预测中存在系统性偏差。相比之下,CART和SVR模型的预测能力相对较弱。为了进一步验证模型的跨传感器一致性,我们评估了OLI、ETM+和TM传感器之间的数据一致性。结果显示,TM和ETM+之间以及OLI和ETM+之间的R2值均超过0.9,表明这些传感器之间的数据一致性良好。这一结果为将OLI基的GBDT模型应用于TM影像提供了依据。最终,我们使用可用的TM同步现场测量值对模型性能进行了评估,结果显示其性能良好(R2≈0.60,RMSLE=0.20,AURE=37.0%),表明模型具有较强的鲁棒性和适用性。

### Chla的时空变化分析

本研究分析了1987年至2024年间MLYRB内面积超过1平方公里的湖泊和水库的Chla时空变化。分析的重点包括空间分布模式、年际趋势和季节性动态,并进一步探讨了气象和人为因素的影响。由于Landsat卫星的16天重访周期和频繁的云覆盖,导致图像可用性在一年内不均匀,有时甚至出现一个月或整个季节的缺失。为了减少季节性偏差,我们采用了三元组移动窗口方法,对每个三元组期间的可用影像进行季节性中值计算,并取平均值作为年度平均值,最终取所有年度平均值的平均值以构建长期空间分布。年际趋势的分析采用了非参数Theil-Sen中位数方法,并通过Mann-Kendall检验评估其显著性。结果显示,Chla的年际变化中,大部分水体(n=1,101)没有显著趋势,但有28个系统显示出显著增加(p<0.05),而593个系统则显示出显著减少(p<0.05),表明Chla下降的系统远多于上升的系统。

在大型湖泊和水库(面积>50 km2)中,有8个系统显示出显著的Chla增加(p<0.05),而11个系统则显示出显著的Chla减少(p<0.05),这表明这些大型水体的趋势相对均衡。值得注意的是,大多数显著减少Chla的系统是小型和中型湖泊(面积<50 km2),其中Chla的变异性更大。在流域尺度上,Chla的年际变化在2005年至2007年出现了一个显著的转折点。在此之前,Chla水平显示出波动上升的趋势(p>0.1),随后转变为下降趋势(p>0.1)。这一模式与文献中报道的趋势一致,例如Song等(2024)发现,中国政府在1994年至2020年间对淡水质量改善的投资显著增加,从几乎为零增长到1063亿元人民币,这有助于水质改善。此外,Hu等(2022)指出,人类活动对东部平原湖泊的总营养指数(TSI)产生了显著的负面影响,特别是在2010年之前,工业废水排放的相对变化率主要为负,表明环境政策在该时期有效降低了工业废水排放。Tong等(2017)报告称,2006年至2014年间,中国东部湖泊的总磷浓度显著下降,这一趋势间接反映了废水处理政策的有效性,支持了我们的发现,即在2005年之后实施的保护政策显著改善了MLYRB内湖泊和水库的水质。

### 影响因素分析

在空间分布分析中,我们使用了六个潜在影响因素的年度均值作为输入变量,而对应的年度均值Chla作为输出变量。通过RF回归和Spearman相关分析,我们识别了影响Chla空间分布的关键因素。结果显示,气象因素中的降水量和温度是主要影响因素,分别贡献了50.7%和21.7%的变异性,而风速的影响较小。Spearman相关分析进一步表明,降水量和温度与Chla呈正相关,增加的降水量通过增强河流和湖泊的径流,提高了营养物质(氮和磷)的输入,从而促进藻类生长,提高Chla水平。较高的温度则促进了浮游植物的生长,增加了Chla水平。在人为因素中,NTL贡献了20.8%的变异性,而GDP和FC的解释力较弱。值得注意的是,Spearman相关分析显示NTL与Chla呈负相关,这表明经济发达地区可能实施了更有效的水环境管理措施,从而降低了富营养化程度。

在年际变化分析中,我们使用了MLYRB内六个潜在影响因素的三年平均值作为输入变量,而三年平均的Chla作为输出变量。通过RF回归和Spearman相关分析,我们识别了驱动年际变化的主要因素并量化了每个因素对年际Chla动态的相对贡献。结果显示,气象因素解释了32.5%的变异性,而人为因素则解释了67.5%。NTL和GDP分别解释了37.7%和27.3%的变异性,这表明人类活动作为这些代理指标,与MLYRB内Chla的年际变化具有显著的统计关系。NTL和GDP作为该流域内城市化和经济发展的指标,广泛被认为是区域社会经济活动的客观衡量标准。从1984年到2024年,中国实施了一系列与水环境保护和污水处理相关的国家政策、法规和举措。例如,在2005年至2010年间,一系列针对重点区域和代表性湖泊的保护政策相继出台,这与本研究中Chla水平开始下降的时期相吻合。这些政策包括2006年发布的国家环境保护“十一五”规划,明确强调了对太湖和巢湖等主要湖泊的总污染物负荷控制。2008年发布的《加强重点湖泊水环境保护指导意见》提出了更严格的排放标准,以改善主要湖泊流域的水质。这些政策要求高排放企业满足更严格的废水排放限制,从而降低工业污染负荷。同时,政策强调通过建设配备氮磷去除设施的新污水处理厂来提高城市污水处理能力,特别是在太湖、巢湖、鄱阳湖和洞庭湖等重点湖泊区域。此外,政策还要求加强对农村污染和非点源污染的控制,包括限制使用高毒性和持久性农药,以减少对水生环境的风险。根据中国统计年鉴,2005年至2010年间,城市污水处理厂的数量从792座增加到1,444座,污水处理能力也显著提高。这一扩展显著提高了污水处理效率,从而减少了氮、磷和其他污染物进入湖泊和河流的负荷。2010年中国环境状况公报也记录了这些政策的有效性,表明它们有效降低了富营养化水平并改善了湖泊水质,这与本研究中2007年后MLYRB内湖泊和水库Chla的下降趋势相一致。

### 结论

本研究系统地重建了MLYRB内面积超过1平方公里的湖泊和水库近四十年的Chla记录,揭示了其时空动态,并评估了气象和人为因素的相对影响。研究结果为了解水质变化、评估富营养化风险以及支持流域尺度的环境管理策略提供了宝贵的见解。通过结合地表温度作为特征,我们开发了一个基于Landsat-8 OLI数据的GBDT模型,该模型在测试数据集上表现出色(R2=0.78,RMSLE=0.21,AURE=29.6%),并成功应用于Landsat-5 TM影像,显示出可接受的精度(R2=0.59,RMSLE=0.20,AURE=37.0%)。该研究不仅提供了对MLYRB内湖泊和水库Chla变化的全面认识,还为未来的水环境管理提供了科学依据。此外,研究还指出,尽管主要依赖于相关性分析,但需要进一步的研究来更深入地理解MLYRB内Chla的长期变化机制。未来的工作应纳入更多相关数据集,并采用更复杂的生态物理模型来揭示驱动Chla动态的潜在机制。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号