全球陆地每日10公里分辨率地表臭氧数据集(2013-2022):填补高时空分辨率监测空白

《Scientific Data》:A global land daily 10-km-resolution surface ozone dataset from 2013–2022

【字体: 时间:2025年10月30日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对全球臭氧污染加剧但现有数据集时空分辨率不足的问题,开发了基于LightGBM机器学习模型的全球陆地每日0.1°分辨率地表臭氧数据集(2013-2022)。通过融合地面观测、卫星产品、大气化学模型模拟等多源数据,实现了R2达0.79-0.88的精确估算,为臭氧污染健康评估和极端事件监测提供了关键数据支撑。

  
随着工业化进程加速,全球臭氧污染问题日益严峻。地表臭氧(O3)作为继PM2.5之后对人类健康威胁最大的空气污染物之一,其浓度在全球多个地区呈现上升趋势。特别是在印度、尼日利亚、巴基斯坦等地区,2010至2020年间臭氧浓度显著增加。一项针对全球45个特大城市的评估显示,其中35个城市经历了臭氧浓度上升。臭氧暴露会显著增加呼吸系统疾病、心血管疾病风险,诱发慢性阻塞性肺疾病,甚至导致过早死亡。日益严重的臭氧污染对人类健康构成了持续威胁。
然而,当前全球地表臭氧监测面临重大挑战。地面监测站虽然精度高、时间连续性强,但全球分布极不均衡,北美、欧洲和东亚地区站点密集,而其他区域覆盖稀疏。卫星遥感虽能提供大范围观测,但由于平流层臭氧层干扰,边界层臭氧仅占大气总臭氧不足10%,卫星难以直接准确监测地表臭氧浓度。现有全球臭氧数据集多为月尺度或年尺度,如Liu等发布的0.5°月尺度数据集和Delang等开发的0.1°年尺度数据集,这些粗时间分辨率数据平滑了臭氧污染信息,难以捕捉突发污染事件和详细变化趋势,限制了健康评估研究的深入开展。
在此背景下,武汉大学王锐团队在《Scientific Data》发表了题为"A global land daily 10-km resolution surface ozone dataset from 2013-2022"的研究,开发了2013-2022年全球陆地每日最大8小时平均(MDA8)地表臭氧浓度数据集,空间分辨率达0.1°×0.1°。该研究采用高效的LightGBM(Light Gradient Boosting Machine)算法,融合了地面臭氧观测、大气化学模型模拟、气象再分析数据、卫星产品、排放清单等多源数据,实现了高精度全球地表臭氧浓度估算。
关键技术方法包括:从TOAR(Tropospheric Ozone Assessment Report)、CNEMC(China National Environmental Monitoring Center)等全球6,193个监测站获取臭氧观测数据;采用CCMI(Chemical Climate Modeling Initiative)四个大气化学模型(CHASER MIROC-ESM、MRI、GEOSCCM、MOCAGE)的模拟数据;整合ERA5和MERRA-2气象再分析数据;利用OMI(Ozone Monitoring Instrument)卫星的OMTO3e和OMNO2d产品;结合EDGAR(Emissions Database for Global Atmospheric Research)排放清单、MODIS(Moderate Resolution Imaging Spectroradiometer)土地覆盖数据等。通过严格的质量控制、时空特征优化和多种交叉验证方法,确保数据可靠性。
数据生成框架
研究构建了完整的数据处理流程,包括数据预处理、模型构建和验证三个主要阶段。在数据预处理阶段,对图像数据进行空间分辨率统一重采样至0.1°,时间分辨率统一为日尺度;对地面观测数据进行异常值剔除、单位统一(μg m-3)和时区标准化(UTC+0)。小时臭氧观测数据转换为MDA8浓度,定义有效值为至少包含6小时有效观测的8小时平均值,且每日需至少18个有效8小时平均值。观测数据按0.1°网格进行平均,作为机器学习模型标签。
模型选择与优化
研究比较了三种主流梯度提升算法(XGBoost、CatBoost、LightGBM)的性能。LightGBM在空间10折交叉验证中表现最佳,R2为0.80-0.88,RMSE为11.13-13.25 μg m-3,且训练效率最高,比XGBoost快近3倍。CatBoost精度显著较低(R2:0.73-0.80,RMSE:13.03-16.72 μg m-3)。研究还发现,使用单一年份数据训练的模型优于多年份模型,且添加空间特征(如经纬度)会导致浓度图出现条带状异常,降低无站点区域的预测精度,因此最终模型未包含空间特征。
数据质量控制
针对中国观测数据,研究发现2017年模型精度出现显著提升(R2从2016年0.73升至0.84),这与CNEMC集中管理空气质量监测的政策实施时间吻合,因此研究仅使用2017年后的中国观测数据。欧洲数据方面,使用欧洲环境局数据补充了TOAR中缺失的2021-2022年观测。
模型精度验证
空间10折交叉验证显示,数据集日尺度R2为0.80-0.88,RMSE为11.13-13.25 μg m-3,MAE为8.10-9.57 μg m-3;月尺度精度更高,R2达0.84-0.91,RMSE为7.66-9.04 μg m-3。全球约83.5%网格的R2超过0.70,中国中东部、德国、美国东部和韩国等站点密集区域精度最高。
SDCV(Spatial Distance-based Cross-Validation)验证表明,随着训练集与验证集距离增加,模型精度下降速度在0.1°-0.2°间最快,之后保持稳定。在2°距离时,R2仍高于0.6,显示模型具有较强的空间泛化能力。留一法交叉验证在不同地理尺度进行:大洲尺度平均R2为0.5,RMSE为20.63 μg m-3,其中欧洲站点网络精度最高(R2:0.58),非洲最低(R2:0.39);30°网格尺度平均R2为0.50,10°网格尺度为0.55。
时间序列分析显示精度存在季节性变化,暖季臭氧浓度高时R2更高,特别是6月和9月。日均R2保持在0.67以上,RMSE低于15.01 μg m-3,MAE低于10.88 μg m-3
与现有数据集比较
与ChinaHighO3(1公里)和CHAP(10公里)中国数据集相比,2017-2020年间本数据集与二者的平均R2分别为0.71和0.70;与Liu等全球月尺度数据集(2013-2019)和Chang等数据集(2013-2017)比较,平均R2分别为0.61和0.54。留一法验证显示本数据集斜率(0.90)和R2(0.90)与CHAP相当,证实其可靠性。
极端污染事件监测能力
以2022年7月欧洲热浪导致的臭氧污染事件为例,本数据集成功捕捉到污染从西南欧向中欧再向东北欧传播的过程,与WMO(World Meteorological Organization)公报中超标站点分布一致。相比之下,MRI大气化学模型模拟虽呈现东移趋势,但在7月10-14日期间大面积高估浓度(超过100 μg m-3),空间分布与实际情况偏差较大。
研究结论表明,该全球陆地每日10公里分辨率地表臭氧数据集填补了高时空分辨率臭氧监测数据的空白,为全球臭氧污染趋势分析、健康影响评估和极端事件监测提供了重要数据基础。数据集通过严谨的质量控制和多维度验证,表现出与现有高质量数据集的高度一致性,尤其在站点稀疏区域仍保持可靠精度。研究强调,尽管数据集在站点密集区域代表性更强,但通过先进的机器学习方法和多源数据融合,显著提升了无站点区域的估算能力。该数据集可支持臭氧与大气污染物、生态系统相互作用研究,为空气质量管理和公共卫生政策制定提供科学依据。
数据集以NetCDF格式存储,按日分文件,按年压缩,可通过Zenodo平台(https://doi.org/10.5281/zenodo.16683952)公开获取。相关代码已在GitHub开源(https://github.com/WangWangRuiRui/surface_ozone/),促进研究透明性和可重复性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号