一个公开、可复制的每日二氧化碳(CO?)预测模型基准测试,该模型适用于温室气体(GHG)监测

《Environmental Modelling & Software》:An open, reproducible benchmark of daily CO 2 forecasting models with applications to GHG monitoring

【字体: 时间:2025年11月19日 来源:Environmental Modelling & Software 4.6

编辑推荐:

  二氧化碳浓度预测的机器学习与混合模型研究:基于28个ICOS站点的评估显示,Prophet及其混合模型(如ProHiTS、ProphetTCN)在大部分生态系统和气候条件下表现最佳,尤其在雪地和高纬度地区误差最低(中位数MAPE<0.80%)。模型优势源于Prophet对季节性和长期趋势的有效捕捉,结合其他方法(如TCN、LightGBM)提升复杂环境下的稳定性。

  本研究探讨了如何利用先进的建模方法对大气二氧化碳(CO?)浓度进行准确预测,特别是在不同生态系统和气候条件下的表现。研究团队由来自西班牙瓦伦西亚大学的六位科学家组成,他们提出了一个可复现的建模框架,整合了统计学、机器学习(ML)、深度学习(DL)以及混合模型,用于每日尺度的CO?预测。该研究利用了来自28个ICOS(集成碳观测系统)大气站的高频数据,这些站点分布在欧洲多样化的生态系统和气候区,评估了模型在不同环境下的性能表现。所有模型均采用Python实现,并基于开源库,代码和处理后的数据集均可公开获取。

在气候变化背景下,大气CO?浓度的持续上升对植物生态系统产生了深远的影响。植物生态系统不仅在减缓气候变化方面具有重要潜力,还具备适应环境变化的多重能力。因此,对植物生态系统的碳通量研究成为理解气候变化对这些生态系统影响的重要工具。通过监测CO?通量,可以评估这些生态系统是碳汇还是碳源,以及它们如何影响整体大气碳预算。此外,对碳通量平衡的研究有助于识别碳循环的变化,提供早期生态系统健康、生物多样性变化和人类活动对全球碳循环影响的信号。

在研究中,团队采用了两种关键的分类方法:K?ppen-Geiger气候分类和欧洲空间局(ESA)的WorldCover 2020土地覆盖分类。K?ppen-Geiger分类将全球气候分为五种主要类型,并进一步细分为30个子类,每种子类通过字母组合来表示温度和降水的变化。这种方法为分析不同生态系统中CO?吸收的气候影响提供了有效的框架。而ESA的WorldCover分类则提供了11种土地覆盖类别,分辨率为10米,涵盖了树木覆盖、灌木丛、草地、农田、城市地区、裸露或稀疏植被、积雪和冰、永久水体、草本湿地、红树林和地衣与苔藓。这种分类方法在农业和全球景观管理中具有广泛的应用价值。为了更精确地分析森林生态系统与CO?吸收之间的关系,研究进一步将树木覆盖细分为常绿、落叶和混合三种类型。

研究团队对这些分类方法的结合使用,为分析不同生态系统和气候条件下CO?的预测能力提供了坚实的理论基础。这一框架对于理解生态系统的碳动态至关重要,因为它能够揭示不同环境条件下预测能力的变化。通过这种方法,团队能够对不同生态系统的CO?动态进行更加细致的分析,并评估模型在这些条件下的性能。

在模型选择方面,研究团队采用了多种先进的模型,包括传统的统计模型、机器学习模型、深度学习模型以及混合模型。这些模型涵盖了从简单的指数三重平滑(ETS)到复杂的神经网络模型,如长短期记忆网络(LSTM)、门控循环单元(GRU)、时间卷积网络(TCN)和时间密集编码器(TiDE)。这些模型的选择旨在覆盖时间序列预测的主要方法学家族,每种模型都提供了不同的建模假设和机制,从而为长期每日预测提供了互补的视角。此外,研究还探索了基于Prophet的混合模型,如ProphetLGB、ProphetTCN和ProHiTS,以增强预测的稳定性和准确性。

在数据预处理和模型训练过程中,团队使用了Python 3.10.13,并结合了Pandas、NumPy、Darts、Matplotlib和Seaborn等库,以确保数据处理和模型训练的高效性与可复现性。数据被预处理以确保模型的最佳性能,包括将原始的每小时数据聚合为每日观测值,通过IQR方法去除异常值,并使用PCHIP插值法填补缺失值。最终,数据被归一化以确保模型的稳定性。

模型的超参数选择过程采用了系统性的优化策略,以确保模型在可控和可复现的条件下进行比较。团队基于领域特定的约束和计算效率,实施了分两阶段的超参数优化流程。第一阶段是选择一个最小但具有代表性的站点子集进行调优,第二阶段则是通过随机搜索在固定预算内对模型进行优化。这种方法确保了模型的公平性和可行性,尤其是在ICOS网络中数据可用性不均的情况下。

在模型的混合化方面,团队采用了一种集成策略,将先前训练的模型进行组合,以提高预测性能。这种策略基于理论和实证观察,即通过整合多样化的预测模型,可以同时减少偏差和方差,从而获得更准确和稳定的预测结果。具体而言,团队评估了两种集成方法:一种是简单的预测值平均,另一种是基于学习的堆叠方法。简单的平均方法作为一种稳健的基线,能够确保预测值落在各个模型预测范围之内,而基于学习的堆叠方法则通过训练一个新的模型来学习如何最佳地结合基础模型的预测,从而提升预测的准确性。

在模型性能评估方面,团队使用了多种指标,包括平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)、均方根对数误差(RMSLE)、平均绝对百分比误差(MAPE)和最大绝对误差(MaxAE)。这些指标共同反映了模型在不同环境条件下的准确性和稳定性。通过这些指标,团队能够识别出在大多数生态系统和气候条件下表现最佳的模型,并评估其在不同环境下的预测能力。

研究结果表明,基于Prophet的模型在大多数站点中表现出最低的预测误差和最强的稳健性。特别是在高纬度和高海拔站点中,这些模型的预测能力显著高于其他类型,而在农田和混合森林中表现较差。这种差异可能与这些生态系统中更高的变异性以及更复杂的动态有关。此外,研究还发现,Prophet及其混合模型在处理具有强季节性特征的数据时表现出色,而传统的统计模型和递归神经网络则在某些条件下表现欠佳。

通过分析不同站点的预测结果,团队揭示了预测误差在不同生态系统和气候条件下的分布特征。这些结果强调了模型性能与环境复杂性之间的关系,表明在具有高度空间和时间异质性的生态系统中,混合模型能够提供更好的预测性能。然而,在高海拔和高纬度地区,传统的统计模型仍然具有一定的优势。这种现象表明,模型的有效性不仅取决于预测精度,还与底层信号的规律性密切相关。

研究还通过残差分析和统计测试验证了模型的稳健性。团队应用了Friedman-Nemenyi事后检验,确认了Prophet及其混合模型在所有百分位数上显著优于其他模型,从而加强了它们在各种预测条件下的稳健性。此外,通过对比不同站点的预测性能,团队发现基于Prophet的混合模型在某些情况下能够提供比简单模型更高的准确性,特别是在处理异质或人类影响的环境时。

尽管基于Prophet的模型表现出色,但研究也指出了某些站点的具体异常情况,如Lampedusa站点(LMP 8.0),该站点的CO?浓度预测存在系统性低估。进一步的分析表明,这种偏差可能与该站点在测试期间(2023-2024)的结构变化有关,特别是在冬季出现了显著的CO?浓度上升趋势。这一发现强调了在环境条件发生非平稳变化时,数据驱动的预测模型可能受到数据漂移的影响,因此需要引入适应性重新训练策略和外部预测因子以维持预测的准确性。

此外,研究还揭示了不同土地覆盖类型和气候条件下CO?季节性变化的规律。例如,在植被稀少或缺失的生态系统中,如裸露土地和积雪地区,CO?浓度的变化幅度较小,而在植被茂密的生态系统中,如农田、草地和森林,CO?浓度的变化更为显著。这种季节性变化主要由植被的光合作用和非生物过程(如土壤呼吸和积雪与大气的交换)驱动。这些发现强调了生物和非生物因素在调节碳通量中的相互作用,以及植被覆盖不能完全解释CO?变异性的重要性。

从方法论的角度来看,研究结果突显了选择性混合化策略的优势。虽然全面的集成或堆叠方法可能引入不必要的复杂性和不稳定性,但基于Prophet的混合模型在准确性和稳健性之间实现了最佳的平衡。这一发现表明,在生态预测中,有针对性地结合稳定的预测模型比无差别地进行集成平均更为有效。

综上所述,基于Prophet的混合模型在高分辨率CO?预测方面展现出了强大的潜力和可靠性。这些模型不仅能够提供准确的预测,还具备良好的解释性和可扩展性,适用于多种生态和气候条件下的碳监测。通过将这些模型整合到实际的观测网络中,可以增强我们对大气CO?变化趋势的检测、理解和应对能力,从而支持基于证据的气候评估和生态系统管理。此外,研究还强调了在不同环境条件下对模型进行适应性调整和引入外部预测因子的重要性,以确保预测模型在环境变化中的持续有效性。未来的研究应进一步探索这些模型在其他温室气体和大气污染物(如甲烷、氧化亚氮和空气质量指标)中的应用,以评估基于Prophet的混合化方法在环境时间序列预测中的广泛适用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号