全球60米高分辨率灌溉水源数据(2000-2015):推动农业水资源精细化管理与可持续利用
【字体:
大
中
小
】
时间:2025年10月10日
来源:Scientific Data 6.9
编辑推荐:
为解决全球灌溉水源空间分辨率不足、水源类型区分困难的问题,研究人员基于高分辨率耕地数据与地表水空间关系,结合灌溉需水量模型,开发了60米分辨率的全球灌溉水源分布数据集(2000-2015)。该研究在美国验证准确率达85%,显著优于现有GMIA数据(25%),为农业水资源管理、地下水可持续性评估及生态环境影响分析提供了关键数据支撑。
在全球气候变化和人类用水需求不断增长的背景下,干旱和半干旱地区的水资源短缺问题日益严重,加速了地表水和地下水资源的消耗。农业是这一问题的主要贡献者,全球70%的地表水和地下水提取量用于灌溉,其中许多地区的水资源利用不可持续,导致环境流量受损或地下水储量枯竭。这种不可持续的水资源利用常常引发水资源竞争,造成低效和不公平的水资源配置。这些影响受到区域气候特征、灌溉水源类型及取水位置的强烈影响。例如,伊朗霍拉桑拉扎维省的研究显示地下水开采对当地物种及其生态服务产生了显著影响;另一项研究指出,取水行为会影响水生栖息地的连通性,并对生态系统功能造成不同程度的干扰。同时,地下水过度开采的外部性和激励因素也受到地下水利用空间格局及相邻井场之间地理距离的影响。在全球许多缺水地区,这些动态变化正伴随着传统小农农业向大规模商业化农业的转型过程,导致精细尺度上的景观剧变。这些变化凸显了对高分辨率全球尺度灌溉耕地进行监测的迫切需求。
然而,在高分辨率和全球尺度上一致地绘制灌溉耕地位置并区分灌溉水源(地下水与地表水)一直是一项挑战。尽管已有研究在特定国家生成了高分辨率的灌溉耕地图,如美国(30米分辨率)、印度(250米)和中国(500米),但在全球尺度上,主要依赖国家级的农业普查数据来生成网格化的灌溉面积估算值,其中全球灌溉面积图(GMIA数据集)是较早的尝试之一,该数据集以5弧分(约10公里在赤道)的分辨率提供了全球灌溉设施面积(AEI)的估算。但这类数据集依赖于农业调查数据,其质量在不同国家和不同时间可能存在较大差异,因此某些国家的AEI估算有效分辨率可能远低于5弧分。此外,GMIA数据集的空间分辨率较低,限制了其在水资源和政策研究中的有效性,特别是在需要精确取水位置信息的跨边界含水层管理中。
为了满足对高分辨率全球地下水灌溉图的需求,本研究生成了2000、2005、2010和2015年60米分辨率的全球主要作物水源(降雨、地下水灌溉和地表水灌溉)分布图。制图算法分为两个步骤:首先,利用两种近期数据源和机器学习算法对GMIA数据集的AEI估算进行降尺度处理:(1)30米分辨率的全球耕地范围数据,用于根据每个耕地像素与最近地表水源的距离及耕地斑块的空间纹理来识别最可能的灌溉水源;(2)全球作物用水模型(WATNEEDS)生成的作物缺水图,用于约束降尺度过程。其次,利用与耕地相关的地表水源空间分布及基于国家和地方统计数据的地下水灌溉比例图,将降尺度图像中的每个灌溉像素分配到不同水源类别中。水源预测结果使用印度稻田调查的田间数据和美国地下水井数据库进行了验证。
为开展这项研究,作者整合了多源数据与关键技术方法。数据包括GMIA灌溉设施面积(AEI)数据集、地下水灌溉比例数据、WATNEEDS模型生成的灌溉需水量(BWR)、GLAD全球耕地数据、HydroRIVERS地表水特征数据及GHSL城市区域数据。技术方法的核心是基于随机森林(Random Forest)的降尺度算法,通过Google Earth Engine(GEE)平台实现,包括数据预处理(重采样与协调)、灌溉水源分配(基于地表水邻近性和地下水灌溉比例)及不确定性表征。验证过程中使用了美国Landsat灌溉数据集(LANID)、美国地下水井数据库(USGWD)和印度农户调查数据,通过混淆矩阵计算了生产者精度、用户精度、总体精度和F1分数等指标。
数据预处理
预处理阶段首先将GLAD耕地数据的分辨率从30米重采样至60米,以适应GEE平台的内存限制,采样方法为多数(基于模式)重采样,即当新60米像素中至少50%的底层30米像素被识别为耕地且不重叠于城市像素时,该像素被分类为“耕地”。随后,通过比较GLAD耕地范围数据与GMIA的AEI估算,发现了显著差异,这主要是由于GMIA的分辨率较粗且依赖于行政单元级别的统计数据。例如,耕地可能仅集中在行政单元的一部分,但AEI被均匀分配到单元内的所有像素中,导致在耕地较少或没有耕地的区域高估AEI。为解决这一差异,研究实施了协调程序,通过国家特定的随机森林模型,基于灌溉需水量(BWR)调整AEI百分比,确保其与实际耕地分布和生物物理灌溉需求保持一致,同时在预测AEI百分比超过耕地百分比时进行上限约束,以保证物理合理性。
灌溉水源分配
灌溉水源分配过程将每个60米耕地像素分配到三种水源类型之一:雨养、地表水灌溉或地下水灌溉。分配基于几个关键假设:首先,当农民缺乏地表水 access(如由于必要基础设施缺失)或地表水获取成本(包括行政和输送费用)高于抽取地下水成本时,会选择地下水灌溉,因此与地表水源的距离是决定地下水灌溉使用的关键因素;其次,每个5弧分像素中地下水灌溉的百分比假设与GMIA数据得出的地下水灌溉比例基本一致,即使灌溉设施总面积有所扩大;最后,空间整合是地下水利用的一个主要特征,灌溉基础设施通常计划为灌溉区内的多个农场服务,以均摊建设和维护成本,因此远离地表水的耕地更可能通过地下水井进行灌溉,这些井假设位于连续灌溉耕地区域的中心,以高效服务周围田块并最小化输送损失。
基于这些假设,耕地像素按与最近地表水特征的距离排序,依次分配为地表水灌溉,直到达到目标地表水灌溉面积(即总AEI乘以地下水灌溉比例的补集)。剩余未分配的耕地像素按与最近非耕地或地表水灌溉像素的距离排序(即到剩余耕地斑块边缘的距离),从距离最远的像素开始分配为地下水灌溉,直到达到地下水AEI目标或所有耕地像素被分配。任何未分配的耕地像素被视为雨养。
不确定性表征
降尺度过程本身引入两个不确定性来源:一是重采样耕地数据的离散性,每个60米像素被完全分配到一个水源类别,这会在结果中引入噪声,通过将输出上采样至GMIA数据集的原生分辨率并比较预测AEI及其分项与GMIA值的差异来估算该不确定性;二是GMIA AEI估算与GLAD耕地数据之间未在预处理步骤解决的差异, specifically在某些GMIA网格单元中,所有GLAD耕地像素可能在达到GMIA指示的预期目标AEI之前被分类为地表水或地下水灌溉,该差异被记录并报告为偏差,表示GMIA估算的AEI与GLAD耕地总量之间的百分比点差异,指示了低估GMIA获取灌溉面积的区域。
数据记录
本研究描述的数据以CC-BY 4.0知识共享许可提供,存储在figshare的全球灌溉水源图库和GEE平台上,包含2000、2005、2010和2015年的四幅图像,每幅图像有八个波段:波段0(cropClass)使用整数编码指示灌溉水源和城市区域,波段1至4为上述偏差和不确定性估算,波段5至7为相关输入数据。完整的精度评估结果以Excel表格形式提供在figshare的数据精度评估库中。
技术验证
寻找地面真实数据被证明是验证全球灌溉水源数据集最具挑战性的任务之一。通过最大努力,研究收集了三个国家和区域数据集用于验证2015年的降尺度结果(与可用数据时期匹配),包括美国Landsat灌溉数据集(LANID)、美国地下水井数据库(USGWD)和印度稻田农户调查数据。进行了三个独立分析:首先将降尺度AEI(包括地表水和地下水)与LANID比较;其次将地下水灌溉耕地产品与美国150万口井的点位置验证;第三将地下水灌溉数据与印度8,355块灌溉田块的调查位置验证。
降尺度AEI与遥感衍生产品的验证显示,在国家层面上,AEI预测与LANID数据集密切一致(低估4%),较GMIA数据集(高估23%)有显著改进。在州层面,AEI预测在较湿的州倾向于高估灌溉面积,在干旱和半干旱州则低估,这些偏差可能源于预处理阶段使用国家尺度回归模型进行偏差校正,未能充分代表美国巨大的区域异质性,以及使用多年平均数据处理BWR和耕地面积而2015年异常湿润的年份情况。
地下水灌溉与美国井位置的验证表明,在2公里分辨率下,预测(Pred)的用户精度为0.44,总体精度为0.85,较GMIA(用户精度0.24,总体精度0.25)有显著提升。GMIA由于原始10公里网格存储地下水灌溉耕地面积,在栅格化验证时任何非零面积的单元被转换为完整正像素块,导致生产者精度接近完美但用户精度和总体精度较低;而Pred作为精细尺度的60米二进制掩码,通过聚合改善与地面真实栅格的对齐,用户精度大幅提高,始终优于GMIA。
地下水灌溉与印度调查数据的验证显示,GMIA和Pred在所有空间分辨率下表现良好,生产者精度始终高于0.85,用户和总体精度普遍超过0.70,但降尺度在印度的益处较温和,主要因为地下水灌溉广泛存在,GMIA的粗网格已经与密集的井基础设施和高地下水使用普及率良好对齐,Pred仅略微提高用户精度和总体精度,突出了在高度灌溉、数据密集背景下降尺度的边际效益递减。
使用说明
该数据集是GMIA AEI栅格的降尺度产品,使用作物需水量、耕地分布、地下水灌溉比例和地表水邻近性信息确定每个60米耕地像素最可能的主要水源:雨养、地表水灌溉或地下水灌溉。但这一简单分类忽略了现实中的混合使用情况,偏差源自GMIA的地下水灌溉比例数据,该数据来自国家和地方统计数据,并传播到本降尺度数据集。从用水量到灌溉面积的转换可能造成耕地仅从单一水源获水的假象,但实际上混合使用两种水源并不少见,特别是在地表水供应间歇性和不平衡的干旱半干旱地区。根据天气条件、季节和作物轮作模式,农民可能使用替代水源。本研究数据代表五年窗口(如2015年数据集为2013-2017)的平均条件,未考虑年度作物轮作,因此建议将降尺度数据集指示的水源解释为相关时期作物供水的主要(而非独占)来源。
降尺度算法的一个重要假设是每个5弧分(10公里)网格单元内地下水灌溉面积相对于AEI的百分比大致恒定,该假设支撑了使用GMIA地下水灌溉比例分配地表水和地下水灌溉面积。为测试其有效性,使用美国地质调查局(USGS)的县级用水数据进行了比较,计算得出的均方误差(MSE)为4.75%,均方根误差(RMSE)为2.18%,表明相对稳定的地下水灌溉比例假设对于将AEI划分为地表水和地下水组成部分是可接受的。
耕地对地表水源的访问权限假设由与地表水特征的邻近性决定,使用的HydroRIVERS数据集源自高分辨率(90米)数字高程模型(SRTM),虽然能检测河流和地表水体,但未能捕获灌溉基础设施(如灌溉渠网络)。尽管存在这些限制,核心假设——地表水灌溉更可能发生在靠近自然地表水体(如河流或湖泊)的地方——通常成立,因为长距离输送灌溉水的成本较高。
验证过程中的不确定性——既来自验证数据本身,也来自进行验证的空间分辨率——可能影响报告的精度指标。在美国,验证依赖于USGWD井数据库,该数据库虽全面,但存在已知限制,如状态信息过时、基础设施属性缺失、多用途用水分类和地理位置错误。尽管过滤保留了仅活动灌溉井与有效坐标,残余不确定性仍然存在,这反映在州级结果中,数据更完整和精确的州(如阿肯色州、特拉华州、堪萨斯州、密西西比州和内布拉斯加州)验证精度显著更高,生产者和用户精度在0.68至0.95之间。
更根本的挑战源于验证数据性质与预测空间结构之间的不匹配。验证数据集(美国井位置或印度调查田块)由离散点数据组成,而灌溉预测是连续基于面积的栅格图层。为允许比较,预测和验证数据都需要聚合到共同空间分辨率,这一过程引入了新的权衡,直接关系到可修改面积单位问题(MAUP)。如美国和印度验证所示,精度指标倾向于随更粗的聚合(如从300米至5公里)而提高,这是因为更大像素平滑了空间失配和田块级别异质性:一个灌溉子像素可能导致整个细胞在最大值聚合下被标记为灌溉,将许多先前的假阴性转化为真阳性。然而,这种明显精度的提高不一定反映模型保真度的改善。在印度等小农主导地区,聚合掩盖了水源模式的有意义变异;在美国部分稀疏灌溉地区,它可能通过将孤立灌溉像素扫入更大的假阳性区域而夸大灌溉面积。因此,建议用户选择与研究对象尺度一致的空间分辨率(例如小农景观中≤500米或大田系统中1-2公里),并结合上述MAUP挑战解释模型性能。聚合可能改善与噪声验证数据的对齐并减少随机误差,但也牺牲了对操作决策和本地分析往往关键的空间细节。
总之,本研究描述的数据集旨在支持水文建模、农业水资源管理、可持续性评估以及地下水消耗和地表水压力评估等应用。完整的降尺度管道在Google Earth Engine中实现并公开可用,允许用户复制或修改过程。随着新耕地、用水或遥感数据的可用,数据集可高效更新以反映最新条件。尽管受混合水源灌溉、输入数据集分辨率及灌溉基础设施访问假设等限制,该数据集代表了推进全球和区域灌溉动态分析的有价值资源。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号