CAMELSH:美国本土首个流域尺度小时级水文气象大数据集及其多属性特征研究

【字体: 时间:2025年07月29日 来源:Scientific Data 5.8

编辑推荐:

  为解决全球缺乏小时尺度大样本水文数据集的问题,研究人员开发了CAMELSH数据集,整合了美国9,008个流域的11种气象要素、439项GAGES-II和195项HydroATLAS流域属性,提供3,166个流域的实测小时径流数据(1980-2024)。该数据集遵循FAIR原则,支持机器学习在洪水预警等短时水文预测中的应用,填补了受人类活动影响流域的数据空白。

  

在全球气候变化加剧的背景下,短时极端水文事件频发给灾害预警带来严峻挑战。传统日尺度数据集如CAMELS虽推动了水文研究,但其时间分辨率难以捕捉暴雨洪水的瞬时动态,且样本多来自近自然流域,无法反映占全球三分之二受人类活动影响的河流状况。更棘手的是,现有小时级数据集如WaterBench-Iowa仅覆盖局部区域,CAMELS小时版仍延续天然流域的局限性,导致机器学习模型在受调控流域的预测性能大幅下降。这些数据缺口严重制约着短时径流生成机制研究和洪水预警模型开发。

针对这一科学瓶颈,美国密歇根大学(University of Michigan)土木与环境工程系的Vinh Ngoc Tran团队联合太平洋西北国家实验室等机构,在《Scientific Data》发表了首个覆盖美国本土(CONUS)的小时级水文气象大样本数据集CAMELSH。研究团队创新性地整合多源数据:基于GAGES-II筛选9,008个流域(含3,166个实测径流站点),采用NLDAS-2气象强迫数据(0.125°分辨率)计算11个气象变量和9项气候指数;从HydroATLAS提取195项动态属性,保留GAGES-II的439项静态属性;所有数据统一采用UTC+0时区,经严格的质量控制和标准化处理。关键技术包括:1)运用空间连接算法聚合HydroATLAS子流域单元;2)开发面积加权平均法处理网格化气象数据;3)建立流域属性三重校验机制(GAGES-II/HydroATLAS/NLDAS-2衍生指标)。

【数据构成】
数据集包含三大核心组件:1)小时尺度水文气象序列(1980-2024),其中降水、气温等变量源自NLDAS-2,径流数据通过USGS实时值服务获取;2)流域属性涵盖气候、地质、地形等9大类,特别新增水坝密度、道路网络等人类活动指标;3)两套流域边界文件(GAGES-II原始版与HydroATLAS聚合版)。如图1所示,观测站点覆盖全美主要生态区,其中中西部平原和东部高地站点密度最高。

【技术验证】
研究团队通过多维度验证确保数据可靠性:1)径流数据完整性分析显示,约75%站点具有15-35年连续记录(图2);2)气候属性空间分布符合地理规律,如西北部降水季节性强(p_seasonality>0.6)、西南部干旱指数高达4.5(图3);3)流域边界比对发现5,887个流域与GAGES-II重合度超90%(图5),但人类活动指标如道路密度在两类属性间存在显著差异(R2<0.7)。


【数据集优势】
相比已有成果,CAMELSH的突破性体现在:1)时间分辨率提升至小时级,可解析径流昼夜波动;2)包含7,080个受干扰流域(图7a),较CAMELS的"近自然"样本更具现实意义;3)首创动态属性集成方案,如通过图4所示的空间叠加算法处理HydroATLAS子流域边界错位问题;4)提供ERA5-Land强迫数据接口,为未来全球扩展预留空间。

该研究构建的水文气象大数据基础设施,为破解短时径流预测难题提供了关键支撑。数据集已应用于:1)开发LSTM(长短期记忆网络)洪水预警模型;2)评估人类活动对水文极值的影响;3)验证陆面模型在小时尺度的参数化方案。随着ERA5-Land数据的接入和动态属性更新,CAMELSH有望成为连接区域与全球水文研究的桥梁,推动数据同化技术和AI模型在灾害防控领域的深度融合。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号