
-
生物通官微
陪你抓住生命科技
跳动的脉搏
中国地表水资源机器学习重建数据集CNSW 1.0:填补长期空白的行政区划尺度水资源管理新工具
【字体: 大 中 小 】 时间:2025年06月20日 来源:Scientific Data 5.8
编辑推荐:
为解决中国行政区划尺度地表水资源数据长期缺失的问题,西安交通大学团队通过整合14种机器学习模型,重建了2000-2020年中国341个地级市地表水资源数据集CNSW 1.0。该数据集R2达0.98,显著优于CNRD v1.0等现有产品,为气候变化背景下的精细化水资源管理提供关键基准。
水是气候变化的"温度计",但中国长期缺乏行政区划尺度的地表水资源系统数据。联合国2023年全球水大会指出,水资源管理是实现可持续发展目标(SDG)的核心挑战。在中国,地级市是水资源政策制定的基本单元,然而现有全球数据集如GRUN、ISIMIP等存在空间分辨率粗(0.5°)、缺乏实测验证等问题,且无法反映2000年以来行政区划调整的影响。更棘手的是,省级水资源公报存在21.3%的数据缺失,西北等干旱区监测站点稀疏,传统插值方法难以应对这种复杂场景。
西安交通大学全球环境变化研究院联合西北农林科技大学等机构,在《Scientific Data》发布了中国首个地级市尺度地表水资源数据集CNSW 1.0。研究团队收集了2000-2020年全国341个地级市(不含港澳)的实测数据,针对数据缺失和行政区划变更两大难题,创新性地采用14种机器学习模型进行重建。关键技术包括:(1)整合气象、植被、土壤等21类驱动因子;(2)采用9:1比例划分训练集与测试集;(3)针对合并与拆分两类行政区划调整设计差异化的数据处理方案;(4)通过R2、PBIAS等指标优选随机森林(RF)作为核心模型。
方法创新:多模型协同重建
研究构建的机器学习矩阵涵盖线性回归(LR)、弹性网络(ENR)、支持向量机(SVR)、随机森林(RF)等14类算法。其中RF在训练集表现最优(RMSE=53.87mm,R2=0.98),测试集SVR表现最佳(RMSE=93.07mm)。针对汉中等行政区划调整城市,采用"合并即加和、拆分则预测"的原则,确保数据时空连续性。
质量验证:精度全面超越现有产品
与CNRD v1.0等数据集相比,CNSW 1.0在全国尺度R2提升12%,在华北等典型区域偏差降低50%以上。RF模型对长江中游地区模拟近乎完美(R2=0.99,PBIAS=0.09%),但对西藏存在系统性低估(-51.97%)。时空分析显示,2002、2016年为丰水年,2007、2011年为枯水年,江西-安徽交界区呈现显著增湿趋势(+15mm/年)。
应用价值:管理政策的科学基石
该数据集首次实现三个突破:(1)将水资源评估单元从网格尺度精确匹配到行政边界;(2)通过机器学习融合公报数据与多源遥感数据;(3)建立可追溯2000年的长时序基准。在宁夏等生态脆弱区,数据揭示出农业用水与生态需水的动态平衡阈值,为"三条红线"水资源管理制度提供量化依据。
讨论部分指出,CNSW 1.0的局限性在于西北干旱区样本不足导致高估风险。未来计划通过联合地下水监测数据,构建"空-天-地"一体化校验体系。这项研究不仅响应了联合国水行动议程,更为实现中国2030年用水效率提升25%的目标奠定数据基础。正如通讯作者Fubo Zhao强调:"当水资源管理精确到每个地级市,我们就能在气候变化的棋盘上抢占先手。"
研究团队公开了所有数据和R代码,鼓励采用Top5模型集成策略优化区域应用。这项成果标志着中国水资源研究从"网格模拟"迈入"行政单元精准管理"的新纪元。
生物通微信公众号
知名企业招聘