编辑推荐:
当前,人类与地球系统研究数据分散,阻碍相关分析与建模。研究人员开展了构建表面地球系统分析和建模环境(SESAME)人地地图集的研究。结果显示,该地图集整合多变量,助力数据探索与建模。其意义在于推动跨学科研究,打破人地系统研究数据障碍。
在地球科学的研究领域中,人类活动与地球系统之间的关系一直是科学家们关注的重点。近年来,随着全球气候变化、生物多样性丧失等问题日益严峻,深入了解人类与地球系统的相互作用变得愈发迫切。然而,现实情况却给科研工作带来了诸多挑战。一方面,数据的碎片化问题十分严重。地球系统科学涵盖了多个领域,包括物理地球系统和人类系统等。但长期以来,人类系统与非人类系统的研究相互分离,导致相关数据的生产和收集也各自独立。例如,物理地球系统的数据常以标准化的网格格式编制,像通过卫星遥感获取的许多自然系统变量数据,能以网格形式呈现,便于分析空间分布特征;而人类系统变量数据多由各国政府在国家或地区层面收集,且以表格形式存档,如人口、经济等数据,这些数据在中等和高分辨率网格中的报告受到样本量和隐私等因素限制,难以与地球系统数据进行直接比较。另一方面,不同来源的数据格式多样、标准不一。非人类地球系统的数据分散在各个网站,格式繁杂,地图投影、空间分辨率和单位也各不相同,这使得研究人员在获取和使用这些数据时困难重重。
在这样的背景下,来自麦吉尔大学(McGill University)等机构的研究人员决心开展一项具有开创性的研究,以解决这些难题。他们构建了表面地球系统分析和建模环境(SESAME)人地地图集(Human-Earth Atlas),该研究成果发表在《Scientific Data》上。这一地图集意义非凡,它打破了数据之间的壁垒,为跨学科研究提供了有力支持,有助于科学家更全面、深入地理解人类与地球系统之间的复杂关系,进而为应对全球环境变化等问题提供科学依据。
为了构建这一地图集,研究人员运用了多种关键技术方法。在数据处理方面,针对不同类型的空间数据,如网格 / 栅格、点、线、多边形和表格数据,采用了相应的转换和网格化方法。对于表格形式的管辖数据(如国家层面数据),利用了 dasymetric mapping 技术进行降尺度处理,将其分配到合适的网格单元中。在数据来源上,整合了来自多个权威机构的大量数据,涵盖了气候、人口、经济、生态等多个领域。
下面来详细了解一下研究结果。
人地地图集概述:该地图集旨在以单一标准化格式提供大量地理网格化的人地变量,方便研究人员进行探索、分析和发现。研究人员根据五个圈层对数据集进行分类,这五个圈层分别是岩石圈(Lithosphere,由地壳岩石和土壤、风化层的无机成分组成)、大气圈(Atmosphere,地球周围的气体层,包括空气、降水、云等)、水圈(Hydrosphere,地球表面和地下的液态水和冰,如湖泊、河流、海洋等)、生物圈(Biosphere,所有生物,包括人类)和技术圈(Technosphere,所有非生物的人类创造物)。版本 1 的地图集在这五个圈层中提供了超过 250 个人地系统变量,多数变量以 2D 空间数组存储,部分还包含垂直维度(深度)和时间维度。地图集提供 1°×1° 和 0.25°×0.25° 两种空间分辨率的数据,不同分辨率的数据各有优势,1°×1° 分辨率能兼顾区域和全球尺度的分析,0.25°×0.25° 分辨率则适用于对细节要求较高的研究。同时,地图集遵循 FAIR 原则(Findable,Accessible, Interoperable and Reusable,即可发现、可访问、可互操作和可重用),方便研究人员获取和使用数据。
地图集类别:
- 大气圈:研究人员从 ERA5 和 MERRA-2 再分析模型获取了 2000 - 2022 年的多种气象数据,如降水、温度、表面压力等,并进行了重新网格化处理。对于湿球温度(Tw,评估人类在气候科学中生存能力的关键指标),由于 MERRA-2 提供的该数据在 2 米高度的可靠性存疑,研究人员利用 ERA5 再分析产品中的气温和湿度数据计算了 2000 - 2024 年的每月平均最高湿球温度。此外,还收集了大气能量相关变量和气溶胶数据等。
- 生物圈:这一类别包含了生物物种以及人类社会文化特征的数据。研究人员收集并重新网格化了全球人口数据和 GDP 数据,计算了人口加权人口密度(PWPD)。同时,还获取了人类足迹指数、食物生产和消费数据、土地覆盖数据、净初级生产力(NPP,包括海洋和陆地)、生物群落分类数据、生物多样性指标以及植被结构变量等。这些数据从多个角度反映了生物圈的状况以及人类活动对其的影响。
- 水圈:地图集涵盖了丰富的海洋和淡水水圈变量,如来自世界海洋地图集(World Ocean Atlas)的海洋变量和来自 HydroSHEDS 的淡水变量。包括海表面温度、溶解氧、盐度、河流流量、湖泊属性等数据,这些数据对于研究地球的水资源分布和生态系统具有重要意义。
- 岩石圈:研究人员收集了岩石学多边形数据,创建了 15 种岩石类型的分数覆盖数据,并从 SoilGrids 获取了各种土壤属性数据,经过重新网格化后存储在地图集中。这些数据为研究地球的地质结构和土壤特征提供了基础。
- 技术圈:技术圈数据主要涉及人类创造的非食物物质。研究人员收集了农业机械、商业飞机、商船、铁路、建筑物等在国家层面的数据,并通过 dasymetric mapping 技术将其分配到各个网格单元中。例如,利用随机森林机器学习模型预测拖拉机质量,并根据不同的代理变量(如耕地面积、机场数量、航运交通密度等)将各类技术圈数据进行网格化处理。
数据处理流程:研究人员对 5 种主要类型的空间数据进行了转换和协调。首先是数据输入,广泛收集了各种结构和分辨率的空间数据和表格人类数据。接着进行空间网格化,将数据自动转换为标准化的空间网格,对于管辖表格数据,根据代理变量分配到相应网格单元。然后进行数据审查,通过计算全球统计数据检查转换错误。最后将最终输出存储为 netCDF 格式,这是一种广泛接受的多维时间序列数据标准格式,方便研究人员进行后续的分析和处理。
示例数据集:研究人员展示了多个示例数据集。以净初级生产力(NPP)数据为例,陆地 NPP 数据来自 MODIS,海洋 NPP 数据是对五个模型输出的平均值,经过重新网格化和单位标准化后,将两者结合,通过乘以海陆分数避免沿海网格单元的高估,从而可以量化不同纬度区间的 NPP 贡献。在矢量地理空间数据转换方面,将全球发电厂容量、铁路密度和岩石分数等数据分别从点、折线和多边形数据集转换为空间网格数据。对于表格数据存储,以国家层面的道路材料数据为例,利用 dasymetric mapping 操作将其存储到空间网格中。此外,通过将建筑质量数据转换为标准化网格,并与湿球温度数据进行比较,发现大量建筑正在接近人类宜居湿球温度阈值(约 32 - 35°C)的地区建造,这些地区面临着极端热浪的风险。
在研究结论和讨论部分,SESAME 人地地图集的构建是一项具有重要意义的工作。它整合了人类和非人类地球系统的多样化数据,为跨学科研究提供了一个全面的数据平台,打破了以往人类与地球系统研究之间的数据隔阂,有助于研究人员更深入地理解人类 - 地球系统的动态变化。通过提供标准化、可访问的数据,该地图集能够支持各种科学研究,如气候变化研究、生态系统保护、城市规划等。同时,研究人员计划继续发展和更新地图集,扩展 SESAME 软件包的功能,增加建模能力,鼓励用户贡献数据和功能,促进跨学科合作。这一研究成果为未来的地球系统科学研究奠定了坚实的基础,有望推动相关领域的进一步发展,为解决全球环境和可持续发展问题提供有力的支持。