基于机器学习集成算法提升海洋浮游植物红波段吸收峰遥感反演精度

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Remote Sensing Applications: Society and Environment》：A machine learning algorithm to retrieve the red peak of phytoplankton absorption spectra from ocean-colour remote sensing

【字体：大中小】 时间：2025年08月27日 来源：Remote Sensing Applications: Society and Environment 3.8

编辑推荐：

　　本研究针对卫星遥感反演浮游植物吸收系数ɑph(676)存在较大不确定性的问题，通过集成多种机器学习算法开发了新型反演模型。研究人员利用OC-CCI卫星数据集和1576组现场观测数据，构建了Meta Stacking集成学习模型，显著提高了ɑph(676)的反演精度，为海洋初级生产力估算和碳循环研究提供了重要技术支撑。

海洋浮游植物作为海洋食物网的基础，通过光合作用生产了地球上超过50%的氧气，并通过吸收二氧化碳调节大气CO₂水平，是海洋健康、生态系统变化和气候动态的重要指示器。浮游植物细胞中含有色素，特别是叶绿素(Chlor-a)，能够在特定波长吸收光，这使得海洋水色卫星能够探测到它们在海洋中的浓度。

浮游植物吸收系数ɑ_ph(λ)是表征每毫克浮游植物叶绿素吸收光量的重要参数，对于遥感应用如细胞大小、色素组成和光合作用模型的 retrieval 至关重要。在可见光谱范围内，300 nm到800 nm对于获取太阳能并将其通过海洋初级生产转化为化学能至关重要。海洋浮游植物通过吸光色素，主要是叶绿素-a，利用了大部分光合有效辐射，叶绿素-a在440 nm附近的蓝波段和676 nm附近的红波段显示出强吸收峰。

目前卫星遥感反演浮游植物吸收系数存在显著不确定性，特别是在红波段676 nm附近的浮游植物吸收峰ɑ_ph(676)的反演上，这一参数是多种新型先进卫星算法的重要输入。这种不确定性阻碍了从太空评估浮游植物生理、大小结构和海洋碳库算法的业务化使用。

为了解决这一问题，Mohammad Ashphaq和Shovonlal Roy开展了一项研究，旨在利用先进的机器学习(ML)技术改进基于卫星的ɑ_ph(676)估算。研究人员编译了一个包含1576个样本的现场ɑ_ph(676)数据集，并与来自海洋水色气候变化倡议(OC-CCI)的六个波长(412、443、490、510、560和665 nm)的遥感反射率Rrs进行匹配。

研究团队广泛评估了多种基础ML算法：随机森林(RF)、梯度提升机和线性回归；并实施了集成ML模型：带有网格搜索交叉验证的RF、极端梯度提升集成模型、集成预测、堆叠投票、优化集成和元堆叠，通过交叉验证的超参数调优整合基础模型。

研究发现，元堆叠(Meta Stacking)在不同时间分辨率的预测准确性方面优于个体ML模型，在日合成数据上显示出最佳结果。该研究解决了先前模型的关键局限性，包括训练数据集小、性能不一致和缺乏集成比较。研究人员提出了一个稳健、经过广泛训练和验证的集成ML模型，显著改善了ɑ_ph(676)估算，并开启了在海洋水色遥感中常规使用的可能性。

本研究采用的关键技术方法包括：从OC-CCI数据档案中提取412-665 nm特定波长的遥感反射率(Rrs)变量，与整理的676 nm浮游植物吸收ɑ_ph(676)进行匹配；训练可能的ML算法形式包括混合集成技术来建模ɑ_ph(676)；评估和优化训练的ML模型性能以推进应用。使用多种统计指标评估ML模型性能并确定整体最佳性能模型。将选定模型应用于卫星衍生的反射率以生成预测的ɑ_ph(676)图。

数据收集与处理

研究人员通过系统搜索PANGAEA数据档案库，使用"浮游植物"、"ɑ_ph"、"Rrs 676"、"ɑ_ph(676)"等关键词，编译了一个全球现场测量的浮游植物吸收光谱数据库。数据集包括SeaWiFS生物光学档案和存储系统(SEABASS)、NASA生物光学海洋算法数据集(NOMAD)数据库、海洋光学浮标(MOBY)、BOUSSOLE和海洋水色气候变化倡议(OC-CCI)验证数据集。经过过滤后，保留了n=1576个有效的ɑ_ph(676)及相关变量条目。

机器学习模型开发

研究团队首先训练和验证了一系列标准ML算法，旨在从Rrs值预测ɑ_ph值。方法包括调整训练-测试比率以识别不同场景中最有效的模型性能。测试的标准算法包括线性回归、基于树的回归、深度学习方法、核方法和概率方法。

为了确保ML模型稳健并在不同的训练和验证数据集下表现一致，研究人员使用了三种训练-测试分割(50:50, 67:33, 80:20)来评估模型性能。实施了13种性能指标的组合来测试算法的效力和性能。分析了样本敏感性以验证数据分割变化对性能和泛化能力的影响。

集成学习策略

研究随后应用了集成方法，这些方法整合了多个标准ML算法以增强整体模型性能。集成方法综合了来自多个基础模型(如决策树、线性模型等)的预测，产生通常比任何单个模型更准确和稳健的最终预测。

分析从先前步骤中突出了机器学习模型如随机森林(RF)、梯度提升(GB)和支持向量回归(SVR)在构建基于集成技术的强大元学习框架用于估算ɑ_ph(676)方面的显著潜力。研究采用了多种集成策略：元堆叠、集成预测、堆叠投票、优化集成、XGB集成和超调谐RF_Grid CV。

模型验证与比较

研究人员将ML模型输出与先前用于检索676 nm浮游植物吸收的算法进行了比较。包括Carder(1999)开发的半分析算法，该算法使用412 nm、443 nm、490 nm和560 nm的遥感反射率(Rrs)值估算水光学参数；以及Roy等人(2017)使用的经验方法，该方法利用443和510的浮游植物吸收来估算ɑ_ph(676)。

性能评估标准

评估机器学习(ML)方法涉及对几个基本和额外标准的全面评估，以确保有效性和适用性。基本标准包括可用性、适用性和应用便利性。复制性对于一致性能至关重要，而执行时间评估训练和预测过程的效率。模型多样性和集成集成对于捕获各种数据方面和通过组合模型改进性能非常重要。

研究结果

基础ML算法性能

算法性能的相互比较显示，线性回归模型在不同训练:测试分割下产生相对一致的性能，导致相对较低的MAE(0.23)、MSE(0.09)和RMSE(0.29)。决策树、AdaBoost、梯度提升、DNN、SVM和GPR模型表现出中等性能，指标彼此相当。然而，随机森林(RF)模型以最低的MAE(0.21)、MSE(0.076)和RMSE(0.09)以及较高的R2分数 outperforms 所有其他模型。

集成模型性能

对于每日预测，元堆叠显示出最高的R2值(0.702)，最佳回归斜率(0.78)，高相关系数(Pearson r 0.84503，和Spearman's ρ 0.81101)，以及相对较低的RMSE(0.2414)，表明高预测准确性和强验证性能。

在所有时间尺度上，性能通常是一致的。例如，在5天预测中，元堆叠再次以最高的R2(0.47)、最低的RMSE(0.3391)和相当的回归斜率脱颖而出，表明其在不同指标上的更好性能。在所有时间尺度上，元堆叠在方差解释、线性和等级相关性、准确性方面表现出色。

模型结构与性能综合

在集成模型评估中，元堆叠和优化集成因其复杂的集成方法而脱颖而出。虽然元堆叠采用纯堆叠方法，但优化集成结合堆叠与投票以提高性能。元堆叠在Rrs的时间数据上表现出最一致和卓越的性能，实现了最低的MAE(0.1775–0.2374)和最高的R2(高达0.725)，特别是在8天和5天数据集中。

应用展示

研究人员将元堆叠算法应用于OC-CCI档案的栅格数据，生成了ɑ_ph(676)的空间图。这些图代表了2023年的两个季节(1月和8月)，显示了ɑ_ph(676)空间分布的季节变化。在北半球，40度以上，8月的ɑ_ph(676)值明显高于1月，反映了夏季叶绿素浓度的增加。相反，在南大洋，ɑ_ph(676)值在1月更高，与 austral 夏季相对应，表明浮游植物浓度升高。

算法预测中的不确定性水平在空间上变化，取决于输入Rrs值。训练和测试数据的地理残差图表明，除南北半球非常高纬度外，残差通常保持在35%以下，表明预测不确定性水平合理。

研究结论与意义

本研究的主要目标是提高遥感估算红波段浮游植物吸收峰即ɑ_ph(676)的预测准确性，这是用于检索浮游植物大小类别以及碳和营养含量的几种遥感算法的关键输入。研究人员提出了一个使用OC-CCI海洋水色卫星数据的新机器学习(ML)算法，通过对各种ML模型公式的广泛训练和验证开发而成。

为了获得稳健的ML模型，研究人员采用严格的方法，编译了一个全面的现场训练数据集ɑ_ph(676)，并将其与可见范围内六个波长的遥感反射率匹配。然后广泛评估了一系列基础ML算法，例如随机森林(RF)、梯度提升机和线性回归；并进一步实施了先进的集成ML模型，如带有网格搜索交叉验证的RF、极端梯度提升集成模型、集成预测、堆叠投票、优化集成和元堆叠，通过整合基础模型。

评估表明，元堆叠集成学习在预测准确性方面是最有效的算法，并且能够很好地处理海洋水色数据的各种时间分辨率。分析表明，ML模型的选择和卫星数据的时间分辨率对于从卫星遥感准确估算浮游植物吸收至关重要。元堆叠作为一种算法可能特别有效地用于ɑ_ph(676)预测，因为其强大地结合了多样化的基础模型和优化技术，特别是当与卫星的每日数据配对以获得更高准确性时。

本研究通过开发集成机器学习模型，解决了关于从Rrs估算ɑ_ph(676)文献中确定的关键局限性。研究人员解决了诸如训练ɑ_ph(676)数据样本量小、先前开发的浮游植物吸收ML模型中不一致的错误百分比、跨波长的弱关系、缺乏基线性能比较以及缺乏比较集成方法(例如堆叠、投票)的评估等挑战。通过编译广泛的现场ɑ_ph(676)数据集(迄今为止最大的数据集)并实施更先进的ML技术(如超参数调优)，本研究确保了开发的ML模型的稳健性和泛化能力。此外，研究人员通过基线性能指标进行了不同ML算法的比较评估，以确定估算ɑ_ph(676)值的最有效方法。因此，本研究通过系统优化集成机器学习模型，直面了估算ɑ_ph(676)值方面的普遍局限性。

在不同时间分辨率(每日、5天、8天、月度和合并的Rrs数据集)获得的卫星匹配上的ML模型性能表明，更细的时间粒度提高了模型的预测准确性。与理解一致，在更高分辨率输入(每日、8天)上训练的ML模型产生更低的错误和更高的R2值，反映了更好地理解海洋水色生物地球化学特性的短期变异性和季节模式。相反，更粗糙的分辨率(例如月度)增加了不确定性，导致欠拟合和降低的模型响应性。通过应对获取纵向海洋水色卫星数据的挑战，研究推进了浮游植物吸收的遥感应用，用于更广泛的生态研究。未来的研究可能专注于探索多分辨率训练、时间嵌入和动态集成加权，以增强ML模型在数据集间的稳健性和泛化能力。

开发的用于检索浮游植物吸收的ML模型可能通过提高卫星衍生的先进生物地球化学产品的准确性来支持政策相关研究。通过改进关键固有光学变量即ɑ_ph(676)的估算，模型可以帮助提高用于大规模环境评估的卫星检索算法的准确性和可靠性，这些评估对生态系统管理和政策至关重要。更具体地说，使用方法改进的基于卫星的ɑ_ph(676)估算可以改进用于推导浮游植物大小类别和浮游植物碳的先进算法，对于这些算法ɑ_ph(676)是关键输入。从太空准确估算浮游植物碳特别重要，因为它是海洋和水生碳预算的关键组成部分。这些估算越来越被全球科学和政策界寻求，以更好地量化海洋生态系统中的碳通量和储量。因此，ML模型输出可以贡献于全球碳和气候模型，并可以为气候变化评估和减缓策略提供信息，例如IPCC报告中提出的那些。

尽管做出了努力，可用的现场aph676数据集主要限于大西洋和太平洋部分区域，使几个主要海洋区域代表不足，例如印度洋、南大洋和大部分太平洋。任何未来的采样工作，将现场观测扩展到涵盖这些多样化和生态独特区域，对于进一步改进训练数据的稳健性和空间覆盖至关重要。更全球分布的训练数据集将增强ML模型的泛化能力，并可能减少区域偏差。如果未来有扩展数据集可用，重新训练提出的ML模型将是必要的，以纳入新数据并提高模型预测的整体准确性。此外，对于区域尺度的特定应用，如监测有害藻华或评估沿海区域的浮游植物群落结构，开发区域训练的ML模型可能有用。这些本地化ML模型可以更好地捕捉独特的生物光学特征和生态动态，并可能提高基于卫星的浮游植物吸收预测在管理或保护工作中的可靠性和相关性。

联系信箱：

粤ICP备09063491号

热点排行