编辑推荐:
全球网格化人口数据对可持续发展意义重大,但其在农村地区的准确性存疑。研究人员以 307 个大坝建设项目数据为依据,对全球网格化人口数据集展开系统验证。结果显示,各数据集均显著低估农村人口,该研究对相关领域意义深远。
在当今时代,许多科学、社会和环境领域的工作都依赖于对人口分布的准确把握。从资源分配、基础设施规划,到疾病流行病学研究和灾害风险管理,人口分布信息都起着关键作用。随着地理空间技术的进步,全球网格化人口数据应运而生,这些数据将地球划分为均匀间隔的高分辨率网格单元,并标注人口数量,方便研究人员和政策制定者在全球范围内了解人口的空间分布情况。
然而,目前全球有 8 个可公开获取的(近乎)全球覆盖的人口计数数据集,如世界人口栅格数据集(GWP)、全球城乡映射项目(GRUMP)、全球人类住区人口(GHS-POP)、LandScan、WorldPop 等。这些数据集背后的模型复杂程度不一,但它们在城市地区的准确性得到了较多关注,在农村地区的准确性却鲜有人探究。农村地区人口分散、异质性强,地面数据有限且空间情况复杂,使得人口估计面临独特挑战,这导致在评估这些数据集在城市以外领域的适用性时,存在显著的知识空白。
为了填补这一空白,来自芬兰阿尔托大学(Aalto University)的 Josias Láng-Ritter、Marko Keskinen 和 Henrikki Tenkanen 开展了一项研究。研究人员利用来自 35 个国家的 307 个大型水坝建设项目的人口重新安置数据和水库表面多边形数据,对全球网格化人口数据集在农村地区的准确性进行了系统评估。
在研究方法上,研究人员从 8 个现有数据集中选取了 5 个包含验证数据时间范围内(1975 - 2010 年)地图参考年份的数据集,即 GWP、GRUMP、GHS-POP、LandScan 和 WorldPop。验证数据方面,利用国际大坝委员会(ICOLD)提供的大坝项目导致的人口重新安置数量,以及通过特定方法获取的水库地理信息,筛选出符合条件的 307 个水库用于分析。通过空间叠加获取水库区域的预测人口数量,并对其进行偏差调整,最后使用偏差百分比和对称平均绝对百分比误差(sMAPE)两个指标来评估数据准确性。
研究结果如下:
- 系统差异:以 2000 年为参考年份,对比五个数据集预测的农村人口与实际重新安置人口数量,发现多数预测显著低估实际值,各数据集之间差异明显,GHS-POP 与其他数据集差异更大,在许多地区估计值接近零。
- 按参考年份分析:所有数据集在各参考年份均存在显著负偏差,偏差范围从 WorldPop 的 - 53.4% 到 GHS-POP 的 - 83.8%,意味着即使偏差最小的数据集,预测的农村人口也不到实际报告数字的一半。不过,近年来偏差和误差变异性呈减小趋势,WorldPop 的改进尤为显著。
- 按国家收入水平分析:按世界银行的国家收入水平分类进行验证,未发现国家收入对五个数据集准确性有明显影响。
- 按国家分析:在国家层面,网格化人口数据集大多低估农村人口。相对准确的估计仅出现在少数国家,但数据点少,结果不确定性高。在数据点较多的国家,如中国、巴西等,所有数据集均显著低估农村人口。
研究结论和讨论部分表明,该研究结果对众多涉及农村地区和人口的研究及政策领域意义重大。由于现有研究在使用这些数据集时未充分考虑其在农村地区的准确性,可能导致研究结果低估农村人口受灾害影响的程度,使医疗服务发展规划不足等,进而造成农村人口在获取服务、资源和发展机会方面处于劣势。
研究还指出,农村人口被系统性低估的根本原因可能在于基础输入数据。国家人口普查是人口模型的重要输入,但存在资金不足、偏远地区难以普查、语言障碍等问题,导致普查数据不完整。此外,辅助数据的空间分辨率有限,如 GHS-POP 使用的 100 米分辨率卫星图像难以检测农村分散的小村庄。研究人员建议增加农村人口普查资源投入,采用替代人口计数方法,谨慎使用在农村地区有局限性的辅助数据。同时,推荐在全球和大规模分析中使用 WorldPop,因其偏差相对较小;在小规模农村地区研究中,可参考研究提供的国家特定偏差分数选择合适数据集。
总之,该研究揭示了全球网格化人口数据集在农村地区的准确性问题,为后续研究和政策制定提供了重要参考,有助于推动实现 “不让任何人掉队” 的可持续发展目标。