
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SC-PREC4SA:填补南美洲日降水数据空白的序列完整数据集及其气候水文应用
【字体: 大 中 小 】 时间:2025年06月15日 来源:Scientific Data 5.8
编辑推荐:
本研究针对南美洲降水观测数据稀疏不均、质量参差不齐的问题,开发了首个覆盖全洲的序列完整日降水数据集SC-PREC4SA(1960-2015)。通过统一化、质量控制、缺口填充和均一化四步框架,整合7794个站点数据,实现了干旱/湿润日预测准确率70%/60%,为气候研究、水文建模和水资源管理提供了高一致性数据基础。
南美洲降水观测的困境与突破
作为全球水循环的关键环节,降水观测数据对理解气候变率和极端事件至关重要。然而在南美洲这片横跨热带到温带、包含亚马逊雨林和安第斯山脉的复杂区域,降水观测长期面临三大困境:国家间数据管理差异导致记录碎片化、极端气候区站点稀疏、原始数据存在系统性误差。这种数据缺口严重制约着区域气候研究和洪水预警系统的精度,正如2015年安第斯山区暴雨引发的泥石流曾造成重大人员伤亡,暴露出观测网络的不足。
瑞士伯尔尼大学Adrian Huerta团队联合西班牙萨拉戈萨大学Roberto Serrano-Notivoli等学者,在《Scientific Data》发表了首个南美洲序列完整日降水数据集SC-PREC4SA。这项研究整合了7国气象部门及GHCNd等全球数据库的15161个原始站点,通过机器学习与地统计创新方法,构建了1960-2015年间时空连续的降水记录,为破解"数据荒漠"难题提供了关键工具。
技术方法精要
研究采用四步递进框架:① 通过空间去重算法统一多源数据;② 开发增强型质量控制协议检测传统方法易忽略的截断、周循环等问题;③ 基于xgboost机器学习模型,融合ERA5-Land再分析数据和19种地形协变量进行缺口填充;④ 采用分位数匹配法对湿日降水量进行均一化校正。特别创新的是引入生态分区(如PAD极端干旱区)替代行政边界,提升气候代表性。
系统性质量评估
质量控制:双重过滤保障数据可靠性
标准QC流程标记出0.13%的异常数据,主要集中干湿交替区域的零值重复记录。增强QC首次系统量化了南美特有的数据问题:34.8%的中安第斯区(CAS)站点存在降水值截断,20.1%的站点呈现毫米级精度不一致——这与当地观测设备迭代历史直接相关。通过严格筛选,最终保留7794个优质站点,较原始数据量缩减48%,但空间覆盖率提升3倍。

缺口填充:机器学习破解稀疏网络难题
在安第斯山区等站点稀少区域,模型通过三重迭代将参考站搜索半径扩展至650km。验证显示:模型在湿润日预测的改进一致性指数(dr)达0.65,其中南安第斯区(SAS)表现最佳(dr=0.75),而亚马逊低地(AOL)因对流降水变率大,精度相对较低(dr=0.57)。值得注意的是,偏差校正版本(bc_pred)虽提高整体一致性,但在极端干旱区(PAD)导致均方根误差增加12%,这提示用户需根据应用场景选择数据版本。
均一化:湿日量值的历史校正
采用相对检测(75%系列)与绝对检测结合的方案,在1970s气候转型期识别出大量断点。校正后PRCPTOT(年总降水)序列清晰反映出1982/83强厄尔尼诺事件在NAS区域造成的300mm降水增幅,而R1mm(湿日数)指标则保留了对1997-98厄尔尼诺的响应信号。这种差异印证了均一化过程对降水强度与频次的不同处理策略。
科学价值与应用前景
SC-PREC4SA的创新性体现在三个维度:首先,其增强质量控制协议为热带地区降水数据筛查树立新标准,特别是EQC-02测试可有效识别发展中国家常见的仪器灵敏度漂移问题;其次,基于生态分区的xgboost建模框架,突破了传统插值方法在复杂地形区的局限;最重要的是,同时提供原始、质控、填充和均一化九个版本数据,支持不同精度需求的科研场景。
该数据集已显现出多重应用潜力:在智利阿塔卡马沙漠,可追溯1960年来偶发暴雨事件的时空规律;在巴西圣保罗都会区,有助于解析城市化对降水格局的影响机制。研究团队特别建议洪水风险评估优先采用hmg_obs_bc版本,而气候变率研究可交叉验证obs_mod与hmg_obs_mod结果。随着ANDEX计划推进,该数据框架有望扩展至积雪等更多水文要素监测,为南半球气候变化研究提供关键基础设施。
生物通微信公众号
知名企业招聘