一种用于贫营养至富营养水域海洋表面叶绿素 a 精准反演的新型混合机器学习方法

【字体: 时间:2025年05月20日 来源:Environmental Research 7.7

编辑推荐:

  为解决不同光学类型水体中 Chla 反演需专属算法、缺乏通用机器学习框架的问题,研究人员设计 Synth Ridge Framework(SRF),融合特征扩展与集成模型。结果显示 SynthRidge 模型 R2 达 0.930,优于基线模型,为多水体 Chla 反演提供新方案。

  
在全球气候变化与生态环境保护的大背景下,海洋浮游植物作为全球净初级生产力的重要贡献者(约占一半),其生物量的核心指标叶绿素 a(Chlorophyll-a,Chla)的精准监测至关重要。Chla 不仅是水体浮游植物生物量的关键生物标志物,更是评估海洋生态健康、碳循环及气候调节过程的核心参数。然而,传统遥感反演算法(如蓝绿波段比值法、单波段比值法)在光学成分复杂的近岸和内陆水体中性能显著下降,因受限于溶解有机物、悬浮颗粒物等干扰。尽管优化水体类型(Optimized Water Type,OWT)算法通过分水体类型建模提升了反演适用性,但依赖主观分类标准且需复杂融合算法,难以实现不同光学水体的统一高效反演。与此同时,机器学习算法虽具备自动特征学习能力,却面临输入特征有限(受卫星传感器硬件限制)、依赖数据质量与多样性、单一模型性能局限等挑战。因此,开发一种兼顾特征优化与模型集成的通用框架,成为突破不同光学类型水体 Chla 精准反演瓶颈的关键。

为解决上述问题,研究人员开展了相关研究,论文发表在《Environmental Research》。

研究人员采用的主要关键技术方法包括:

  1. 特征工程:利用波段比值法对原始光谱波段(如 Terra-MODIS 的 10 个波段、SeaWiFS 的 6 个波段)进行成对比值,生成新特征(如 Terra-MODIS 从 10 个特征扩展至 55 个),再通过 BorutaShap 算法筛选关键特征,最大化输入信息含量。
  2. 模型构建:基于集成学习理念,融合 XGBoost、LightBoost、CatBoost 三种梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型,并采用混合密度网络(Mixture Density Network,MDN)集成策略,构建 SynthRidge 模型,提升数据挖掘能力与泛化性能。
  3. 数据验证:使用 Terra-MODIS 传感器的 Rrs-In situ Chla 数据集(Chla 范围 0-50 mg/m3)进行训练与验证,并在 SeaWiFS 数据集上测试模型跨传感器适用性。

研究结果


模型性能评估


在验证数据集上,SynthRidge 模型展现出强劲预测性能:决定系数(R2)为 0.930,斜率 0.928,均方根误差(RMSE)4.672 mg/m3,相对均方根误差(RMLSE)0.039,偏差(Bias)1.023,平均绝对误差(MAE)1.389。相较于表现最佳的基线模型 GBDT 集成,SynthRidge 的 R2 提升 0.006,斜率增加 0.020,RMSE 降低 0.890 mg/m3,RMLSE 减少 0.003,表明其精度与鲁棒性更优。此外,模型预测的 Chla 密度分布与实测值高度吻合,验证了其在不同光学水体中的有效性。

跨传感器泛化能力


通过 SeaWiFS 数据集验证发现,SRF 框架在不同卫星传感器间表现出良好的通用性,说明其特征工程与模型集成策略具备跨平台适应性,可推广至多源遥感数据的 Chla 反演场景。

特征选择算法对比


通过消融实验对比相关分析(CA)、递归特征消除(RFE)与 BorutaShap 算法,结果表明 BorutaShap 筛选的特征组合使 SynthRidge 性能最优,证实了该算法在特征选择中的有效性,其能更全面地捕捉与 Chla 相关的光谱特征,减少冗余信息干扰。

研究结论与讨论


本研究提出的 Synth Ridge Framework(SRF)通过特征扩展模型集成双模块设计,有效弥补了传统算法依赖主观分类、特征利用不足及单一模型性能局限的缺陷。具体而言,波段比值法与 BorutaShap 的结合显著提升了输入特征的丰富性与相关性,而 GBDT 与 MDN 的集成策略则融合了不同算法的优势,增强了模型对复杂光谱模式的学习能力。实验结果表明,SRF 在贫营养至富营养水域的 Chla 反演中均表现出色,尤其在光学复杂水体中显著优于传统算法与单一机器学习模型,为全球海洋生态监测提供了一种客观、高效的通用工具。

此外,SRF 的跨传感器验证进一步凸显了其应用潜力,有望为多源卫星数据融合提供新范式。尽管研究未明确提及作者单位信息,但其方法创新与实证结果为后续基于机器学习的海洋遥感研究奠定了重要基础,特别是在简化算法流程、提升反演一致性方面具有显著科学意义与应用价值。未来研究可进一步拓展至更多传感器数据及更高维度特征,以深化模型在极端环境下的泛化能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号