基于XGBoost-BO模型的中国高分辨率日尺度二氧化碳数据集重建研究

《Scientific Data》:A high-resolution daily CO? dataset for China (2016–2020)

【字体: 时间:2026年01月16日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对卫星遥感XCO2数据因云层和气溶胶干扰存在空间碎片化和时间不连续的问题,开发了基于贝叶斯优化的XGBoost机器学习模型,成功构建了2016-2020年中国区域0.1°×0.1°日尺度无缝XCO2数据集。验证显示与OCO-2卫星数据R2达0.98,与TCCON地面观测R2最高达0.92。该数据集为碳源汇表征和碳中和政策提供了重要数据支撑。

  
随着全球气候变化的加剧,准确监测大气二氧化碳浓度已成为气候研究和政策制定的关键。作为主要的温室气体,二氧化碳浓度的持续上升正推动全球变暖进程。如果按当前排放趋势,未来四十年内大气二氧化碳浓度预计将突破500ppm大关。中国作为全球最大的二氧化碳排放国,其快速经济发展和能源消费增长使得精准监测二氧化碳时空变化显得尤为重要。
然而,现有的二氧化碳监测手段各存局限。地面监测站虽能提供连续观测数据,但空间分布稀疏,难以捕捉大范围的动态变化。卫星遥感技术如NASA的OCO-2卫星虽能实现全球监测,但由于轨道路径和重访周期限制,加上云层和气溶胶干扰,导致数据存在空间碎片化和时间不连续问题。这些缺陷严重制约了碳循环研究和碳排放政策制定的数据支持。
传统的数据重建方法主要依赖克里金插值或回归模型。克里金法对输入数据的空间分布极为敏感,在数据稀疏区域效果不佳;而传统回归模型往往超参数优化不足,且缺乏可解释性,难以保证重建结果的物理意义。这些局限性促使研究人员寻求更先进的解决方案。
近期发表于《Scientific Data》的研究提出了一种创新方法,通过结合贝叶斯优化的XGBoost机器学习模型,成功构建了中国区域2016-2020年高分辨率日尺度二氧化碳数据集。该研究不仅实现了数据的高精度重建,还通过SHAP方法增强了模型的可解释性,确保重建结果符合物理规律。
研究团队采用多项关键技术方法:整合多源数据包括OCO-2卫星观测、CAMS再分析数据、GOSAT观测、植被指数、气象参数、人为排放等多类辅助变量;使用贝叶斯优化自动调整XGBoost超参数,提升模型性能;应用ForestDiffusion进行数据空间降尺度处理;采用SHAP框架量化各特征对预测的贡献度,增强模型可解释性;通过10折交叉验证和独立TCCON地面观测数据多维度验证模型精度。
数据预处理与质量控制
研究首先对OCO-2卫星数据进行严格的质量控制,剔除质量标志不佳的观测值。随后将有效数据映射到0.1°×0.1°空间网格上,计算每个网格单元内的平均XCO2值。对于粗分辨率辅助数据,研究采用基于ForestDiffusion的生成插值方法进行降尺度处理,该方法通过反转扩散轨迹从噪声条件粗数据中合成细分辨率值,能更好地捕捉时空大气数据的复杂非线性分布。
XGBoost-BO模型构建
研究采用XGBoost回归算法,并通过贝叶斯优化全局搜索最优超参数组合。贝叶斯优化使用高斯过程作为概率代理模型,通过期望采集函数平衡探索与利用,显著提高了参数搜索效率。优化过程设置了双重停止准则:最大500次试验或连续50次迭代无改进。最终模型整合了多源辅助变量,建立了与OCO2观测的映射关系。
模型可解释性分析
通过SHAP方法,研究量化了各特征对预测的贡献度。全局分析显示,CAMS和GOSAT数据重要性最高,这与它们直接提供XCO2浓度信息相符。个体特征分析揭示了各变量与XCO2的物理关系:湿度和太阳辐射增强植物光合作用,呈现负相关;夜间灯光与人为活动强度正相关;植被指数通过碳汇作用与XCO2负相关。这些关系证实了模型捕捉的是真实的物理机制而非虚假统计相关性。
模型精度验证
测试集验证显示,重建数据与OCO-2观测高度一致,R2达0.98,RMSE为0.58ppm,MAPE为0.07%。与地面TCCON观测对比,在合肥站达到R2=0.92,在香河站为R2=0.70,均优于CAMS再分析数据。区域对比分析表明,该数据集与已有的EOF数据集具有良好一致性,且在特定时段更接近地面观测值。
该研究构建的2016-2020年中国区域高分辨率日尺度XCO2数据集,有效解决了卫星观测数据不连续的问题。通过贝叶斯优化XGBoost模型和SHAP可解释性框架,实现了高精度且物理意义明确的数据重建。数据集空间分辨率达0.1°,时间分辨率为日尺度,为深入理解中国区域碳循环过程、支持碳达峰和碳中和目标提供了重要数据基础。该方法的成功应用也为其他大气成分遥感数据重建提供了有益借鉴。
研究的创新性在于将先进的机器学习技术与多源数据融合相结合,不仅提升了数据重建精度,还通过可解释性分析确保了结果的物理合理性。这一成果标志着大气成分遥感数据重建研究向更高精度、更强可解释性方向迈出了重要一步,为全球气候变化研究和碳排放政策制定提供了强有力的科学支撑。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号