中国多种植被类型的地上生物量数据集(2020年),高度为30米

《Scientific Data》:A 30?m aboveground biomass dataset for multiple vegetation types in China (2020)

【字体: 时间:2025年11月13日 来源:Scientific Data 6.9

编辑推荐:

  中国2020年30米分辨率AGB密度数据通过整合GEDI LiDAR、Sentinel-2光学影像及PALSAR雷达数据,结合随机森林模型生成,覆盖森林、草地、灌木等所有主要植被类型,总碳储量20.20Pg,平均R2达0.85,验证显示其精度和空间一致性优于现有产品,为气候政策与生态监测提供基准。

  准确估算地上生物量(AGB)对于理解陆地碳循环和为气候政策提供依据至关重要。中国因其多样的地形和丰富的植被类型,成为全球碳储量的重要贡献者。然而,目前的AGB产品往往在空间分辨率、数据一致性和可访问性方面存在不足,难以全面反映全国不同生态系统中的生物量分布情况。本文提出了一种30米分辨率的中国2020年全国AGB密度(AGBD)数据集,整合了多种植被类型,利用公开可获取的多源遥感数据,包括激光雷达(LiDAR)、光学和雷达影像,实现了对森林、草地、灌木丛、农田和湿地等不同生态系统的一致性映射。通过系统的验证,包括使用实地观测数据、国家统计年鉴和空间分布模式,并与现有AGB产品进行比较,结果显示该模型具有较高的准确性,平均R2为0.85,RMSE为31.26 Mg/ha,rRMSE为50.04%,估算出中国植被区的总碳储量为20.20 Pg。该数据集为生物量评估提供了更新且全面的基准,支持中国的碳核算和生物多样性监测工作。

准确估算生物量是理解全球碳循环和监测生态系统健康的关键基础。陆地生态系统,如森林、农田、灌木丛和草地,在缓解气候变化方面发挥着重要作用,作为主要的碳汇。中国拥有从热带雨林到温带草原的多样化植被类型,因此对全球生物量碳储存做出了重要贡献。因此,开发一个覆盖中国所有陆地生态系统的生物量基线图,可以为国家气候战略和碳排放交易系统提供必要的政策支持。

总植物生物量包括地上生物量(AGB)和地下生物量,如活根。在实际操作中,AGB通常是估算的重点,因为地下生物量在野外难以准确测量。传统的AGB测量方法依赖于基于实地的手段,包括破坏性采样(如砍伐和称重样本树木)或非破坏性技术,后者利用树木的高度和胸径(DBH)等尺寸参数,结合所有ometric模型进行估算。近年来,基于遥感的方法逐渐取代了实地测量,成为研究的主要方向。过去几十年中,卫星AGB估算技术取得了显著进展,采用了多种传感器,包括被动光学仪器(如Landsat、MODIS)、主动微波传感器(如ALOS PALSAR、ENVISAT ASAR)以及主动激光雷达(LiDAR)系统(如GLAS、ICESat)。随着高分辨率、多源卫星影像的日益丰富和易于获取,如今能够及时、高效地对AGB进行大范围估算,并在国家和全球尺度上监测其动态变化。

与耗时且破坏性的实地测量相比,LiDAR传感器通常能提供最准确且高效的AGB估算,使其成为首选方法。然而,尽管其精度较高,LiDAR的高昂成本和复杂的后勤需求限制了其在国家和全球范围内的可扩展性。因此,以往的研究主要集中在局部AGB估算上。2019年启动的NASA全球生态系统动力学调查(GEDI)任务,利用国际空间站上的轨道激光测高仪,对地球表面进行扫描,覆盖范围从北纬51.6°到南纬51.6°。该任务提供了稀疏的AGB估算,通过与同时期的机载LiDAR数据和地面库存点进行校准。这些估算代表了目前最大的AGB参考数据集,可以与遥感数据和机器学习方法相结合,以推动大规模AGB估算工作。

大多数现有的区域和全球AGB产品都是基于高分辨率卫星遥感(SRS)数据生成的。一些产品依赖于实地测量的生物量作为参考数据,例如由Santoro等人开发的2010年全球森林AGB地图,该地图整合了ICESat/GLAS激光雷达、Sentinel-1、Envisat ASAR等高分辨率卫星遥感数据,并结合了110,897个实地测量数据点。此外,还有基于中国2015–2021年数据的30米分辨率森林AGB地图,该地图使用了6,667个实地样点作为训练数据。其他研究则利用GEDI的生物量估算作为参考,包括一种结合GEDI、TanDEM-X和Landsat数据的增强型生物量产品,以及使用GEDI和SRS数据开发的澳大利亚和美国的生物量地图。然而,许多这些产品严重依赖广泛的实地库存数据或专有商业影像,如TanDEM-X和PlanetScope,这些数据并非公开可获取,给广泛应用带来了挑战。此外,由于光学和微波电磁信号在密集植被冠层中的穿透能力有限,从这类影像中估算AGB时常常会遇到饱和效应,即当生物量超过一定阈值后,接收到的信号不再增加。

在中国,已有研究专门绘制了森林AGB的空间分布图。然而,这些研究要么空间分辨率较低,要么依赖于2010年以前的数据,因此无法准确反映当前国家森林AGB的状况。此外,由于这些研究中使用的地面库存数据、遥感影像和森林掩膜数据的来源和获取时间存在不一致,现有的森林AGB产品之间存在显著差异。这种不一致性给准确的国家碳储量估算带来了挑战。一些研究还生成了其他植被类型的生物量地图,如草地、农田和灌木丛,但这些估算主要局限于特定区域或单一植被类型。覆盖中国所有植被类型的综合性评估仍然较为稀缺。因此,迫切需要对中国多种植被类型的生物量进行系统且更新的估算,以建立一个可靠的AGB反演研究基准。

本研究提出了一个30米分辨率的中国2020年AGB数据集,通过整合GEDI空间LiDAR数据、多种SRS数据集、实地调查数据以及多个随机森林(RF)模型生成。该产品覆盖了所有主要植被类型,包括森林、草地、灌木丛和农田,并在一个统一的映射框架下进行估算。为了展示该数据集的优势,我们进行了广泛的验证,包括空间模式分析和使用实地调查数据和国家统计年鉴进行的准确性评估。此外,该数据集还与现有生物量产品进行了系统比较,突出了其独特之处。

研究区域涵盖了整个中国,位于东亚,西临太平洋,总面积约为960万平方公里。中国的广阔领土和多样的地理环境导致了复杂的地形和植被类型。根据2020年WorldCover地图,中国的主要植被类型包括树木(25.02%)、草地(22.57%)和农田(15.58%)。针叶林占树木覆盖的很大一部分(52%)。

所有用于本研究的卫星遥感数据均可通过Google Earth Engine(GEE)平台公开获取。这些数据包括NASA的GEDI Level 4A Version 2.1数据、Copernicus Sentinel-2 Level 2A多光谱影像、GLO-30数字高程模型(DEM)以及由日本宇宙航空研究开发机构(JAXA)提供的PALSAR Version 2数据。GEDI提供的AGBD数据具有高分辨率,但其覆盖范围较为稀疏。在本研究中,我们下载了2020年中国范围内的所有可用GEDI Level 4A(Version 2.1)数据。此前的研究表明,全球森林AGB的上限约为800 Mg/ha。为了减少GEDI数据中可能由噪声或复杂地形引起的异常值影响,我们只保留了AGB值在[0, 800] Mg/ha范围内的数据。同时,根据GEDI科学团队的指导,我们排除了不符合Level 4A产品质量标准的测量数据(‘l4_quality_flag’?=?0和‘degrade_flag’?>?0)。

由于GEDI数据中相对标准误差(RSE)超过50%的AGBD测量数据可能不可靠,我们也排除了这些数据。然而,这一筛选步骤导致大多数AGBD值低于6 Mg/ha的观测数据被移除,这通常对应于低生物量生态系统,如灌木丛、草地和农田。为了应对低值样本不足可能导致的预测偏差,我们实施了一种有针对性的样本增强策略。具体来说,我们基于文献中推导出的代表性区域的估算值,生成了1,865,634个低生物量样本,包括内蒙古的草地、华北平原的农田和草地,以及新疆北部的温带草地和灌木丛。通过基于实地调查数据和文献中提到的生物量统计数据,我们生成了部分低生物量样本,并将其映射到具有相似空间和光谱特性的邻近像素上,从而扩展了样本数量。这些合成样本在研究区域内均匀分布,其生物量值范围从0.71到6.02 Mg/ha。

此外,地形坡度可能导致高度相关指标的高估或低估,进而影响GEDI导出的AGBD估算。最近的研究指出,在白天数据采集过程中,太阳噪声与地形坡度相互作用,导致在坡度大于30度的陡坡上RH95指标出现显著高估。由于RH95与AGBD密切相关,这种偏差可能显著影响生物量估算。为减少这些影响,我们排除了坡度超过30度的GEDI测量数据,以及白天采集的GEDI观测数据(‘solar_elevation’?>?0)。

本研究中使用的卫星遥感数据包括Sentinel-2、PALSAR-2和GLO-30 DEM。Sentinel-2是一项由欧洲空间局(ESA)运营的多光谱成像任务,提供高分辨率影像,其在赤道地区的重访周期为5天。我们首先使用Google的CloudScore+数据集对云层和云影进行掩膜处理,设置阈值为0.5以过滤原始影像。数字数(DN)值随后通过公式转换为地表反射率:\(({DN}+{BOA\_offset})/\mathrm{10,000}\),其中BOA_offset在2022年之前为0,之后为-1000。接下来,我们采用中值合成方法,将2020年1月至12月期间所有可用的高质量影像拼接成一个无缝的影像集。所有12个可用的光谱波段最初作为输入特征。根据多次实验和以往关于生物量特征重要性的研究,我们进一步选择了五个关键的归一化差异光谱指数(NDSI)作为输入变量。这一变量选择的目的是提高计算效率,因为过多的输入特征并未显著提高模型的准确性。

PALSAR-2是搭载在ALOS-2卫星上的合成孔径雷达(SAR)系统,能够全天候、全天时捕捉影像,是一种全天候技术。原始的SAR数据以细束双极化(FBD)模式获取,提供了HH和HV极化通道。我们将2020年的所有SAR图像条带拼接成一个无缝的影像集,覆盖研究区域。DN值随后通过公式转换为\({\gamma }^{0}\)(以分贝为单位):\({\gamma }^{0}=10-\log 10\left({{DN}}^{2}\right)-83\)。

Copernicus DEM GLO-30主要由德国航空航天中心(DLR)的TanDEM-X任务生成。TanDEM-X与其双星卫星TerraSAR-X结合使用SAR和干涉SAR(InSAR)技术,生成了全球高分辨率的数字高程模型。该数据集通过多种卫星影像的辅助产品进行了局部优化。在本研究中,DEM用于计算地形高程和坡度。

所有用于本研究的SRS影像及其导出的光谱和纹理特征总结于表1,对应于用于生物量预测模型的22个预测变量。所有影像均被重新投影到EPSG:3857(伪墨卡托)坐标系统,以确保不同数据集之间的瓦片对齐。

本研究中的GEDI足迹级AGB数据是通过应用所有ometric模型到每个GEDI足迹波形中获取的相对冠层高度估算值。由于其采样策略,GEDI提供了近全球但空间上稀疏的AGB估算。在本研究中,我们下载了2020年中国范围内的所有可用GEDI Level 4A(Version 2.1)数据。之前的研究表明,全球森林AGB的上限约为800 Mg/ha。为了减少GEDI数据中可能由噪声或复杂地形引起的异常值影响,我们只保留了AGB值在[0, 800] Mg/ha范围内的数据。同时,根据GEDI科学团队的指导,我们排除了不符合Level 4A产品质量标准的测量数据(‘l4_quality_flag’?=?0和‘degrade_flag’?>?0)。

GEDI导出的AGBD测量数据中,相对标准误差(RSE)大于50%的数据也被排除,因为它们不可靠。然而,这一筛选步骤导致大多数AGBD值低于6 Mg/ha的观测数据被移除,这通常对应于低生物量生态系统,如灌木丛、草地和农田。为了应对低值样本不足可能导致的预测偏差,我们实施了一种有针对性的样本增强策略。具体来说,我们基于文献中推导出的代表性区域的估算值,生成了1,865,634个低生物量样本,包括内蒙古的草地、华北平原的农田和草地,以及新疆北部的温带草地和灌木丛。通过基于实地调查数据和文献中提到的生物量统计数据,我们生成了部分低生物量样本,并将其映射到具有相似空间和光谱特性的邻近像素上,从而扩展了样本数量。这些合成样本在研究区域内均匀分布,其生物量值范围从0.71到6.02 Mg/ha。

此外,地形坡度可能导致高度相关指标的高估或低估,进而影响GEDI导出的AGBD估算。最近的研究指出,在白天数据采集过程中,太阳噪声与地形坡度相互作用,导致在坡度大于30度的陡坡上RH95指标出现显著高估。由于RH95与AGBD密切相关,这种偏差可能显著影响生物量估算。为减少这些影响,我们排除了坡度超过30度的GEDI测量数据,以及白天采集的GEDI观测数据(‘solar_elevation’?>?0)。

卫星遥感数据包括Sentinel-2、PALSAR-2和GLO-30 DEM。Sentinel-2是一项由欧洲空间局(ESA)运营的多光谱成像任务,提供高分辨率影像,其在赤道地区的重访周期为5天。我们首先使用Google的CloudScore+数据集对云层和云影进行掩膜处理,设置阈值为0.5以过滤原始影像。数字数(DN)值随后通过公式转换为地表反射率:\(({DN}+{BOA\_offset})/\mathrm{10,000}\),其中BOA_offset在2022年之前为0,之后为-1000。接下来,我们采用中值合成方法,将2020年1月至12月期间所有可用的高质量影像拼接成一个无缝的影像集。所有12个可用的光谱波段最初作为输入特征。根据多次实验和以往关于生物量特征重要性的研究,我们进一步选择了五个关键的归一化差异光谱指数(NDSI)作为输入变量。这一变量选择的目的是提高计算效率,因为过多的输入特征并未显著提高模型的准确性。

PALSAR-2是搭载在ALOS-2卫星上的合成孔径雷达(SAR)系统,能够全天候、全天时捕捉影像,是一种全天候技术。原始的SAR数据以细束双极化(FBD)模式获取,提供了HH和HV极化通道。我们将2020年的所有SAR图像条带拼接成一个无缝的影像集,覆盖研究区域。DN值随后通过公式转换为\({\gamma }^{0}\)(以分贝为单位):\({\gamma }^{0}=10-\log 10\left({{DN}}^{2}\right)-83\)。

Copernicus DEM GLO-30主要由德国航空航天中心(DLR)的TanDEM-X任务生成。TanDEM-X与其双星卫星TerraSAR-X结合使用SAR和干涉SAR(InSAR)技术,生成了全球高分辨率的数字高程模型。该数据集通过多种卫星影像的辅助产品进行了局部优化。在本研究中,DEM用于计算地形高程和坡度。

所有用于本研究的SRS影像及其导出的光谱和纹理特征总结于表1,对应于用于生物量预测模型的22个预测变量。所有影像均被重新投影到EPSG:3857(伪墨卡托)坐标系统,以确保不同数据集之间的瓦片对齐。

AGB估算采用了RF回归模型,并在GEE平台上进行。多项研究表明,与其他常用回归模型(如支持向量机和人工神经网络)相比,RF在处理高维数据方面表现更优。它能够建模大量非独立或非线性可分的预测变量,并且对噪声和特征选择不敏感。这些特性使RF特别适合利用多种遥感变量对复杂生态系统进行监测,包括森林高度、生物量估算和森林分类。

在本研究的回归模型中,22个预测变量(如表1所示)来源于Sentinel、PALSAR和DEM数据集,而GEDI AGBD值则作为预测变量。我们在中国范围内分层并随机地将54,393,995个GEDI观测数据集分为训练数据集(70%)和保留测试数据集(30%),以确保模型的准确性。参数numberOfTrees指的是决策树的数量,而bagFraction定义了在构建每棵决策树时随机选择的训练样本比例(剩余样本用于袋外验证)。我们采用迭代搜索方法来确定最佳参数组合。具体来说,numberOfTrees从10到150以10为步长变化,bagFraction从0.1到0.9以0.1为步长变化。为了提高计算效率和模型的泛化能力,最佳模型配置被确定为numberOfTrees?=?50和bagFraction?=?0.6。

由于在广阔区域内的高分辨率遥感数据量巨大,训练全球RF模型在计算上非常耗时和资源密集。此外,GEE平台在处理能力和内存使用方面存在一定的限制。为了平衡预测准确性和计算效率,我们采用了一种本地自适应回归方法。具体而言,中国被划分为508个地理瓦片(见图2),并在每个瓦片内独立训练RF模型,以生成全国范围内的AGB地图。

为了减少过渡区域中AGB估算的明显边界效应,我们在每个瓦片内使用3×3周围瓦片窗口的样本进行RF模型训练,并仅对中心瓦片进行预测。在训练和验证数据集中可能存在空间和时间依赖性,这可能导致模型准确性的高估。为了考虑这些依赖性并评估模型对新数据的泛化能力,我们采用了五折交叉验证方法。对于每个瓦片,我们计算了多次训练-测试分割中的RMSE标准差(SD)作为整体模型不确定性的度量。此外,模型性能还通过决定系数(R2)、RMSE和相对RMSE(rRMSE)进行评估,这些指标均基于验证数据集的平均值进行计算。

根据对实地测量数据和与统计年鉴及现有AGB地图的比较评估,我们提出,该新数据集代表了对中国2020年总碳储量及其空间分布的可靠估算。它能够为森林和草地管理决策提供信息,并支持国家碳核算工作。所提出的建模框架解决了当前方法中的关键不足,并可以扩展用于生成其他地区的30米分辨率年度AGB地图,甚至可能扩展到全球范围。尽管一些先前研究开发了针对不同植物功能类型或土地覆盖类别的独立模型,但我们的研究结果表明,一个覆盖多种植被类型的统一模型是可行的。这种方法减少了训练时间,并有效缓解了特定类别中训练样本有限导致的精度损失。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号