机器学习与遥感技术结合估算叶绿素a浓度的新视角:以纽约州湖泊为例
《Ecological Indicators》:A new perspective on estimating Chlorophyll-a concentrations using machine learning and remote sensing: a case study of New York state lakes
【字体:
大
中
小
】
时间:2025年10月27日
来源:Ecological Indicators 7.4
编辑推荐:
本研究针对美国纽约州内陆湖泊藻华监测数据匮乏的难题,创新性地融合Landsat-8/9和Sentinel-2遥感数据,应用内陆水体大气校正算法(MAIN),并结合流域地理特征,构建了以Extra Trees Regression(ETR)为核心的机器学习模型。该模型在估算叶绿素a(Chl-a)浓度方面表现出色(R2 = 0.72, RMSE = 8.19 μg/L),成功实现了对小型湖泊藻华时空动态的高精度监测,为区域水环境管理和公共健康预警提供了重要技术支撑。
在全球气候变化和人类活动加剧的背景下,藻华,特别是有害藻华(Harmful Algal Blooms, HABs)的暴发频率和规模呈现上升趋势,对水生生态系统和人类健康构成了严重威胁。藻华会导致水体缺氧,释放毒素,造成鱼类大量死亡、饮用水源污染以及滨水娱乐活动受限等一系列问题。叶绿素a(Chlorophyll-a, Chl-a)作为浮游植物生物量的关键指标,是评估水体营养状态和藻华发生风险的核心参数。传统的现场监测方法虽然精确,但耗时费力、成本高昂且空间覆盖有限,难以满足对大范围水域进行高频次、长期监测的需求。尤其是在像纽约州这样拥有超过7600个湖泊的地区,其中绝大多数是面积小于10平方公里的小型湖泊,常规监测更是难以全面覆盖。以往基于中低分辨率遥感影像(如MODIS、Sentinel-3,空间分辨率约300米)的研究,受限于像元尺寸,难以有效应用于这些小水体。此外,现有的一些经验模型往往缺乏区域间的可移植性,且多聚焦于大型湖泊或特定藻华物种(如利用藻蓝蛋白指示蓝藻水华),未能全面捕捉整个藻华季节(从发生、发展到消退)的完整动态变化过程。因此,开发一种能够精准、高效监测小型内陆湖泊叶绿素a浓度的新方法,对于科学研究和环境管理都具有迫切需求。
为了应对上述挑战,研究人员开展了一项针对纽约州湖泊的案例研究,旨在利用高分辨率遥感影像和机器学习技术,构建一个能够准确估算小型湖泊叶绿素a浓度的模型。这项研究近期发表在环境科学领域的知名期刊《Ecological Indicators》上。
本研究主要采用了多源卫星遥感数据融合、专门的水体大气校正以及先进的机器学习建模等关键技术方法。研究人员收集了Landsat-8(2013年发射)、Landsat-9(2021年发射)和Sentinel-2(2019年数据开始可用)卫星在2013年至2023年夏季(5月1日至9月30日)的影像数据。这些卫星提供了不同的空间分辨率(Landsat为30米,Sentinel-2为10米)和时间分辨率(联合使用可缩短重访周期至约5天),使得监测小型湖泊(研究设定面积阈值低至0.04平方公里)成为可能。所有影像均采用了专为内陆水体设计的MAIN(Modified Atmospheric correction for INland waters)大气校正算法进行处理,以更准确地获取水体的真实反射率。同时,研究还整合了湖泊形态学数据(如表面积)和流域土地利用数据(如来自美国国家土地覆盖数据库NLCD的农业和建设用地比例)作为非光学活性预测变量。用于模型训练和验证的现场叶绿素a浓度数据来源于公民科学项目(如纽约州公民全州湖泊评估计划CSLAP)、美国地质调查局(USGS)以及湖泊观测浮标(如肖托夸湖)等多个公开渠道,共涉及347个独特湖泊的超过14,000个样本数据。在机器学习建模方面,研究团队比较了多种算法,包括Extra Trees回归(ETR)、随机森林回归(RFR)、梯度提升回归(GBR)和支持向量回归(SVR),并通过超参数调优和交叉验证来确定最佳模型。
纽约州是研究内陆湖泊藻华的理想区域。该州报告的有害藻华事件自2012年以来逐年增加,但其超过7600个湖泊中,仅有极少部分(0.74%)面积大于10平方公里,凸显了监测小型湖泊的重要性。州内气候为湿润大陆性气候,土地利用包括大面积的森林以及高度城市化和农业化区域,为研究不同人为影响下的湖泊生态提供了多样化的背景。
研究利用了LAGOS-NE数据集筛选出面积大于0.04平方公里的纽约州湖泊。现场叶绿素a数据来自CSLAP、USGS和肖托夸湖浮标等多个公共数据库。最终,研究整合了来自347个独特站点的数据用于模型训练。数据显示,采集的叶绿素a浓度值呈高度偏态分布,中位数为4.3 μg/L,且大多数湖泊的样本数量有限。
除了遥感数据,研究还引入了湖泊表面积(作为湖泊体积、增温潜力、滞留时间和温度分层等的代理变量)以及流域内农业用地和建设用地的比例作为预测因子。这些非光学特征有助于捕捉人为活动对湖泊营养状态的影响。
研究使用了Landsat 8/9 OLI和Sentinel-2 MSI的影像。Landsat提供30米分辨率的8个光谱波段数据,重访周期16天;Sentinel-2提供10米分辨率的13个光谱波段数据,重访周期5天。研究主要利用了其沿海气溶胶、可见光和近红外波段。
影像预处理是关键步骤。除了应用MAIN算法进行大气校正外,还进行了云、云阴影、道路(桥梁)以及非水体像元的掩膜处理,以确保用于分析的数据质量。最后,通过分区统计方法提取了每个采样点缓冲区内的波段反射率中值,并与±7天内的现场叶绿素a样本进行匹配,构建了用于机器学习模型训练的数据集。
研究使用Python的lazypredict包进行初步模型筛选,然后使用scikit-learn包详细实现了ETR、RFR、GBR和SVR模型。数据集按80:20的比例随机分为训练集和测试集,并采用10折交叉验证和随机搜索进行超参数调优。模型性能通过决定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)进行评估。
模型比较结果表明,ETR、RFR和GBR的表现均优于SVR。其中,ETR模型在结合了所有变量(Landsat波段、Sentinel-2波段、湖泊形态和流域土地覆盖)时表现最佳,测试集的R2达到0.72,RMSE为8.19 μg/L。值得注意的是,加入非光学特征(湖泊面积和土地覆盖)显著提升了模型性能(R2从仅使用光谱波段时的0.48提升至0.72)。
通过SHAP(SHapley Additive exPlanations)分析发现,在ETR模型中,最具影响力的变量是非光学特征,即湖泊表面积和流域内建设用地比例,这表明人为活动对藻华发生有重要影响。在光谱波段中,绿色波段(560 nm)、红色波段(665 nm)和近红外703 nm波段对模型预测的贡献最大。
模型预测值与观测值的散点图显示,ETR模型能够较好地捕捉叶绿素a浓度的变化趋势,但在低浓度区间(1-10 μg/L)存在一定的高估倾向。观测值与预测值的频率分布比较表明,除了低于2.5 μg/L的浓度外,模型在其他浓度区间的预测频率与观测值较为接近。
将最佳ETR模型应用于时间序列数据和整个湖泊的遥感影像,生成了点时间序列和空间分布图。以肖托夸湖为例,点时间序列图显示模型能够较好地跟踪藻华生长和消退的动态过程,与藻华的生命周期相符。空间分布图则清晰地展示了肖托夸湖南北湖区叶绿素a浓度的空间差异,这与该湖已知的藻华分布模式一致。对纽约州所有大于4公顷的湖泊进行预测后,通过空间聚合分析发现,纽约市周边和州西部(靠近伊利湖)区域的湖泊平均叶绿素a浓度较高,而阿迪朗达克地区(州东北部)的湖泊相对贫营养,这反映了不同区域的人类活动强度和营养负荷的差异。
ETR模型的优异表现归因于其处理高方差数据和缺失值的能力,以及其计算效率高于RFR和GBR。使用±7天的影像-样本匹配窗口,以及整合来自公民科学的多源现场数据,都有助于提高模型的鲁棒性和适用性。
本研究的优势在于:1)成功融合多源高分辨率遥感数据,提升了对小型湖泊的监测能力和时间分辨率;2)引入非光学特征显著改善了模型性能;3)应用专门的内陆水体大气校正算法提高了反射率数据的准确性;4)模型能够有效捕捉藻华的时空动态。主要的局限性在于模型对极低叶绿素a浓度存在高估,这可能与清澈水体的光谱特征较为相似有关。此外,尽管使用了统一的大气校正算法,但不同卫星传感器之间固有的差异可能仍会引入一定的误差。
为了弥合遥感研究与实际应用之间的差距,本研究的结果将在一个公开的网站界面(nyhabmonitor.site)上发布。该平台将提供交互式地图、时间序列数据和空间分布图下载等功能,使湖泊管理者、研究人员和公众能够便捷地获取纽约州湖泊的叶绿素a预测信息,支持环境管理和决策。
本研究成功地开发并验证了一种结合多源高分辨率遥感影像、先进大气校正技术和机器学习算法(特别是Extra Trees回归)的方法,用于精确估算纽约州小型内陆湖泊的叶绿素a浓度。该方法克服了传统监测和现有遥感模型的诸多限制,能够有效揭示藻华的时空分布格局和动态变化。研究成果不仅为纽约州的水环境管理提供了宝贵的工具和数据支持,其方法框架也具有可扩展性,可应用于其他地区类似的水体监测中。随着气候变化和人类活动的持续影响,这种高效、大范围的监测手段对于预警有害藻华、保护水生态系统和公共健康具有重要意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号