西班牙百年人口变迁探秘 ——HIPGDAC-ES 高精度历史人口网格数据解析

【字体: 时间:2025年02月17日 来源:Scientific Data 5.8

编辑推荐:

  为解决历史人口网格数据稀缺问题,西班牙巴伦西亚大学和 Ivie 的 Francisco J. Goerlich 开展西班牙 1900 - 2021 年人口网格数据研究,生成相关数据并分析趋势。该研究对人口、地理等多领域意义重大,强烈推荐科研读者阅读。

  
西班牙巴伦西亚大学(Universitat de València)和巴伦西亚经济研究所(Instituto Valenciano de Investigaciones Económicas, Ivie)的研究人员 Francisco J. Goerlich,在《Scientific Data》期刊上发表了题为 “HIPGDAC-ES: historical population grid data compilation for Spain (1900–2021)” 的论文。这篇论文在人口地理研究领域意义重大,它填补了西班牙历史人口网格数据的空白,为深入研究西班牙人口的时空演变、城市化进程与环境关系等提供了关键的数据支持和研究基础。

研究背景


历史人口网格数据在学术研究和政策制定中具有不可或缺的地位,但这类数据却极为稀缺,甚至可以说几乎不存在。这一现状严重限制了对过去人口分布的准确理解,以及对人口相关历史进程的深入探究。在这样的背景下,Francisco J. Goerlich 开展了此项研究。其目的是利用历史地籍数据和市级层面的同质化人口数据,为整个西班牙生成 1900 - 2021 年所有人口普查年份、分辨率分别为 100 m×100 m 和 1 km×1 km 的人口网格数据。这不仅有助于更精准地描述历史背景下人口的空间分布,还能为分析城市化进程与环境之间的长期关系提供有力的数据支撑 ,推动相关领域研究的进一步发展。

研究方法


  1. 主要数据来源
    • HISDAC-ES 数据库:该数据库由 Uhl 等人整理,包含超过 1200 万栋建筑物的地籍信息及其特征。经过对西班牙不同地籍(共 5 种)的协调处理,将建筑物轮廓的矢量信息转换为点矢量信息,并把不同特征转化为 100 m×100 m 分辨率的栅格层。其中,总建筑物室内面积(RES_BIA)变量对人口再分配最为合适,但地籍信息在时空上存在不均匀性。例如,巴斯克地区的 3 个省份(Araba/álava、Gipuzkoa 和 Bizkaia)存在数据缺失问题,且数据库早期受 “生存偏差” 影响,即建筑年代推断可能不准确,这会影响人口再分配的质量 。
    • 历史市政人口数据:主要来源于 Goerlich 等人构建的同质化数据库。该数据库基于 2011 年人口普查的市政结构,考虑了 1900 - 2011 年间市政的合并、分离等变化,并开发了相应的变化分类法和数据库。此外,还纳入了 2021 年西班牙国家统计局(INE)人口普查的 8131 个市政人口数据。
    • ESPAREL 数据:这是一个对 18 世纪末和 19 世纪历史人口实体进行地理编码的项目。其 1887 年人口实体的点坐标信息,可用于补充 HISDAC-ES 中缺失数据的市政区域,减少 “生存偏差” 的影响 。

  2. 数据处理与模型构建:研究采用基于矢量 / 栅格的面积权重制图法(dasymetric mapping)来降尺度处理历史市政人口数据。以 HISDAC-ES 的 RES_BIA 变量为主,按顺序依次使用其他变量(如 RES_BUFA、BUFA)或外部数据(ESPAREL 坐标、市政首府坐标),对每个市政区域的人口进行分配。在 100 m×100 m 分辨率下,使用最大余数法将每个单元格的人口数取整,之后再聚合到 1 km×1 km 的标准分辨率,生成人口网格数据 。

研究结果


  1. 人口网格数据记录:研究生成了 1900 - 2021 年人口普查年份的历史人口网格数据集,包括 13 个 100 m×100 m 分辨率的栅格人口层(GeoTiff 格式)、13 个 1 km×1 km 分辨率的栅格人口层(GeoTiff 格式)以及 1 个 1 km×1 km 分辨率的矢量文件(包含至少在一个普查年份有人居住的单元格,符合 INSPIRE 指令的单元格指示符,GeoPackage 格式),共计 27 个文件 。
  2. 历史趋势分析
    • 单元格人口规模分布:1900 - 2021 年,人口较少(10 人以下)的单元格占比从 12% 增至 42%,人口较多(10000 人以上)的单元格占比虽低,但增长了 5 倍。而 25 - 1000 人的单元格相对重要性下降,尤其是 100 - 200 人区间 。
    • 人口垂直分布变化:1900 年,海拔 200 米以下的常住人口约占三分之一,到 2021 年达到 53%,海拔 1000 米以上区域人口占比下降明显 。
    • 人口沿海分布变化:1900 年,距离海岸线 10 km 范围内的人口占四分之一,2021 年达到 40%。10 - 200 km 区间人口占比相对下降,200 km 以外人口占比因马德里大都市区发展略有上升 。

  3. 与其他数据集对比
    • 与 GEOSTAT2021 对比:HIPGDAC-ES 估计的 2021 年有人居住单元格数量比 GEOSTAT2021 多 24%,显示出更大的人口分散性。两者在单元格人口规模分布上差异较小,但 HIPGDAC-ES 的小单元格(10 人以下)占比更高,大单元格占比更低。通过计算差异统计量,两者百分比结构的差异指数为 2.9,在海拔和距离海岸的人口分布上一致性较好,但在绝对数量(居住单元格数量)上仍存在显著差异 。
    • 与 GHSL 对比:HIPGDAC-ES 与 GHSL 在人口数量上较为相似,但 GHSL 估计的有人居住单元格数量约为 HIPGDAC-ES 的两倍,表明 GHSL 过度分散了人口。2021 年,两者单元格相对分布差异指数为 9.8,高于与 GEOSTAT2021 的对比结果 。


研究结论与讨论


Francisco J. Goerlich 通过整合多种数据资源,运用先进的数据处理方法,成功构建了西班牙 1900 - 2021 年的历史人口网格数据集(HIPGDAC-ES)。该数据集在一定程度上克服了历史人口网格数据稀缺的问题,为研究西班牙人口的历史演变提供了重要的数据基础。从研究结果来看,HIPGDAC-ES 能够反映出西班牙 20 世纪至 21 世纪初人口分布的主要趋势,如人口向低海拔地区和沿海地区聚集等,这与已知的历史趋势相符,表明该数据集具有一定的合理性和可靠性 。

然而,研究也存在一些局限性。例如,数据来源中的地籍信息存在时空不均匀性和 “生存偏差” 等问题,尽管采取了多种方法进行弥补,但仍可能对结果产生一定影响。在与其他数据集对比时,HIPGDAC-ES 在人口分布的某些方面与参考数据集存在差异,这可能影响其在一些精确分析中的应用 。

尽管如此,这项研究的意义不可忽视。HIPGDAC-ES 数据集为后续研究提供了宝贵的数据资源,无论是在人口学、地理学领域,还是在城市化研究、环境与人口关系研究等交叉学科领域,都具有重要的参考价值。它为深入理解西班牙人口的历史发展提供了新的视角,也为相关政策制定提供了更丰富的数据支持。未来的研究可以在此基础上,进一步优化数据处理方法,拓展数据来源,以提高历史人口网格数据的准确性和实用性,推动相关领域研究的不断发展 。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号