
-
生物通官微
陪你抓住生命科技
跳动的脉搏
全球极端天气事件深度学习分割与追踪的大规模专家标注数据集ClimateNetLarge
【字体: 大 中 小 】 时间:2025年07月06日 来源:Scientific Data 5.8
编辑推荐:
为解决极端天气事件检测中人工标注样本不足的难题,ETH Zurich等机构研究人员通过专业众包标注方式,构建了包含49,184个时间步的全球大气河流(ARs)、热带气旋(TCs)和阻塞事件标注数据集。该数据集基于ERA5再分析数据,采用webKnossos平台实现多通道标注验证,其分布特征与tARget算法及IBTrACS数据库高度吻合,为深度学习模型训练提供了迄今最大规模的专家指导标注资源。
随着全球气候变化加剧,极端天气事件对社会经济的破坏性影响日益凸显。大气河流(ARs)引发的洪灾每年在美国西部造成约10亿美元损失,热带气旋(TCs)过去50年日均导致43人死亡,而阻塞事件则与欧洲2003年致3万人死亡的热浪直接相关。然而现有检测方法依赖人工设定阈值,不同算法对同一事件的统计结果差异显著,例如大气河流的全球频率检测结果可相差达20%。这种"定义不确定性"严重制约了极端天气研究的可靠性。
为突破这一瓶颈,苏黎世联邦理工学院等机构的研究团队在《Scientific Data》发表了ClimateNetLarge数据集。该研究创新性地采用专业众包标注策略,通过webKnossos平台对ERA5再分析数据进行多维度标注,最终构建了包含49,184个时间步的全球极端天气事件分割数据集,规模较前人工作提升了一个数量级。数据集涵盖1980-2022年间大气河流、热带气旋和2000-2013年阻塞事件的精细标注,每个时间步均由两名独立标注者完成,并通过专家指导的标注手册确保质量。
关键技术方法包括:1)基于欧洲中期天气预报中心ERA5再分析数据,选取总水汽量(TCWV)、垂直水汽输送(IVT)等关键变量;2)采用webKnossos生物医学图像标注平台实现多通道气象数据可视化标注;3)建立包含正负样本的专家标注指南,通过迭代优化解决边缘案例;4)应用面积阈值过滤(ARs>25万km2,TCs>10万km2)去除异常标注;5)使用SciPy标签函数进行空间连续性分析,处理跨经度边界的天气系统。
【数据特征验证】
通过与主流算法对比验证数据质量:大气河流标注频率分布与tARget算法显示一致的高活性区域(北大西洋/太平洋30%频率),但极地地区差异显著。热带气旋标注与IBTrACS数据库的空间分布吻合度达0.42 IoU,面积概率分布符合半径2°-8°的观测特征。阻塞事件在50°纬度带的5-15%频率带与Pinheiro等算法结果高度一致。
【标注差异性分析】
研究特别揭示了标注者间的认知差异:如图3所示,同一大气河流事件中,标注者A倾向于绘制更窄的边界(中位宽度564km),而标注者B则采用更宽松的标准(合并邻近特征)。这种合理的定义不确定性被保留,以反映实际科研中的判断差异。对热带气旋的标注也呈现类似特点,如图7显示两名标注者对马达加斯加附近气旋的识别一致,但对澳大利亚西北部气旋存在分歧。
【技术突破意义】
该研究的核心价值在于:1)首次实现极端天气事件标注的规模化生产,单类事件标注量突破4.9万时间步;2)建立专业众包标注范式,通过webKnossos工具链解决多通道气象数据标注难题;3)验证了非专家标注在专业领域的可行性,标注结果与专家标注的IoU指标相当(ARs 0.42 vs 专家间0.34);4)提供NetCDF标准化数据格式,支持CDO等气候分析工具直接调用。
研究团队特别指出,当前数据集尚不包含天气系统的运动矢量或中心定位信息,这为后续研究留下拓展空间。该资源已通过哈佛Dataverse开放获取,将为深度学习驱动的极端天气检测、分割与追踪研究提供关键训练基准,助力改进气候模型的预测能力。正如作者Sol Kim强调的,这种数据驱动方法有望替代传统基于阈值的启发式算法,为全球气候变化研究提供更可靠的分析基础。
生物通微信公众号
知名企业招聘