基于深度学习的人类迁徙四十年研究

《Nature》:Deep learning four decades of human migration

【字体: 时间:2026年06月12日 来源:Nature 48.5

编辑推荐:

  人类迁徙是全球人口结构变化的核心驱动因素,塑造了各国的人口构成、劳动力市场和社会政策。尽管长期迁移模式通常与经济发展密切相关,但迁徙活动也可能因冲突、环境危机和政治变革等冲击而迅速转变。然而,迁徙现象的测量始终面临重大挑战:现有数据稀疏、高度集中于高收入国家,

  
人类迁徙是全球人口结构变化的核心驱动因素,塑造了各国的人口构成、劳动力市场和社会政策。尽管长期迁移模式通常与经济发展密切相关,但迁徙活动也可能因冲突、环境危机和政治变革等冲击而迅速转变。然而,迁徙现象的测量始终面临重大挑战:现有数据稀疏、高度集中于高收入国家,且在定义、时间分辨率和数据类型上呈现碎片化状态。既有研究多依赖于部分数据集,包括流量记录、存量估计和基于模型的重建,覆盖范围有限。因此,构建全球一致、高分辨率的迁徙流量时间序列成为核心挑战。本研究提出了一种新的年度起源-目的地迁徙数据集,涵盖1990年至今230个国家和地区,通过将官方统计数据、基于人口普查的存量数据、净迁移估计和历史流量重建整合到统一的建模框架中,实现了时间细节和空间覆盖范围的显著扩展。研究人员采用由地理、经济、文化和政治协变量驱动的深度循环神经网络(Recurrent Neural Network, RNN) ensemble,同时捕捉长期趋势和对环境变化的短期响应,并通过不确定性传播生成置信区间。结果表明,该方法在留出的验证数据上优于现有的五年期流量估计,提供了更精细的时间分辨率,揭示了全球迁徙模式中先前被掩盖的动态特征。该框架凸显了不确定性较高、数据收集最为紧迫的区域。通过发布所有数据、代码和训练模型,本研究为未来工作提供了透明且可复现的基础。
研究背景方面,人口在国家和国际间的流动是跨多个领域的重要议题。迁徙驱动人口结构变化,影响劳动力市场,为制定社会政策提供依据,也是公共辩论的热门话题。尽管迁徙通常遵循由发展驱动的长期趋势,但可能因武装冲突、饥荒、自然灾害、政治不稳定、国界变更、和平协议或独立运动等短期冲击而剧烈改变。然而,人类迁徙的定义和追踪 notoriously 困难。当前对全球迁徙系统的分析主要依赖联合国每五年、世界银行每十年发布的移民人口数据,即存量数据。虽然相对易于收集,但这些数据仅提供固定时间点的快照,对迁徙的时间动态洞察有限:移民可能在观测点前刚到达,也可能已抵达数十年。为更好捕捉迁徙动态,研究人员开发了通过比较每个时间间隔起点和终点的移民存量变化来估计多年期迁徙流量的方法。然而,由于这些估计与基础存量数据的间隔绑定, resulting five- or ten-year estimates inevitably smooth or completely miss movements that occur in the intervening years。研究人员最理想的全球迁徙数据是覆盖所有国家的年度流量数据,这将使其能够更精确地追踪迁徙系统的节奏,将迁徙模式与经济变化、冲突、气候或政策改革等其他年度报告数据集整合,纳入年度人口预测模型,并促进跨国和跨区域的因果与比较分析。然而,现有年度迁徙流量数据主要来自具有统计基础设施监测迁徙的高收入西方国家,仅覆盖全球迁徙系统的一小部分,并强化了全球迁徙研究中的接收国偏差。

迁徙流量统计数据的定义由满足国内政策需求的标准决定,这可能使比较分析产生偏倚。尽管联合国推荐十二个月阈值,但应用并不一致。一些国家如德国实行居住登记制度,要求移民抵达时报告原籍国;英国则依赖签证记录、行政数据以及直到近期的乘客调查;第三种常见方法使用移民当局收集的边境入境统计数据。每种方法均有局限:登记系统通常低估出境移民,因少数人在离开时会办理注销;乘客调查和边境数据不够全面,可能混淆短期和长期旅行者。因此,出发国和接收国的估计常常出现显著分歧。为调和此类差异,统计人口学家开发了估计国家间双边迁徙流量的模型。最近的研究项目QuantMig利用贝叶斯框架结合专家洞察,估计了2009至2019年间30个欧洲国家的双边迁徙流量,产生了协调数据集,揭示了巨大不确定性——某些情况下可信区间超过100%。鉴于监测许多发展中国家之间主要迁徙走廊的流量统计数据匮乏,该方法不易推广至全球环境。劳动力迁徙数据是另一重要来源,但各国的定义和数据标准差异很大,且非 documented 迁徙按其本质几乎对官方统计不可见。

近期研究尝试通过分析数字足迹绕过官方数据源监测全球迁徙流量。通过监测2019至2022年间181个国家间基于Facebook聚合匿名月度位置数据的变化来估计双边流量,该研究捕捉到乌克兰人在俄罗斯入侵后的流离失所、委内瑞拉迁徙危机以及疫情期间改变的迁徙模式。这些来自超过三十亿用户的数字踪迹经加权以代表人口层面的迁徙流量,考虑了各走廊的Facebook使用率和经济发展差异,并在选定国家针对官方迁徙统计进行了校准。这些数据首次提供了近全球范围的迁徙流量直接估计。许多国家感兴趣的宏观指标是净迁移,即移民与出境移民的平衡。联合国经济和社会事务部在其《世界人口展望》报告中从1950年起提供全球数据,这些主要基于人口估计而非迁徙统计。由于出生和死亡数据的追踪比迁徙数据更为广泛和一致,原则上可通过从总人口变化中减去自然变化来估计净迁移。尽管该方法理论上成立,实践中因总人口测量及其随时间变化的不规则性而受阻,这些对普查方法的不一致敏感。因此,即使对于人口数据质量较高的国家,人口学净迁移估计也可能与基于迁徙的统计显著不同。

研究人员将深度学习与机械流量模型相结合,估计1990至2023年间联合国认可的230个国家和地区之间的年度双边迁徙流量。数据按出生国分解,因此除每个国家的流量和净迁移外,还获得完整的年度移民存量数据集,即出生于b国居住在j国于t年的移民数量Sbj(t)。深度神经网络针对每个国家的大量社会文化和经济协变量进行训练(扩展数据表1),使研究人员能够厘清迁徙的驱动因素,并为未来迁徙流量预测开辟道路。网络被训练以匹配一组目标数据,包括联合国经济和社会事务部移民存量、Facebook数据以及少量主要为欧洲的双边流量和净迁移数据。目标数据用于构建损失函数,在训练过程中迭代最小化。损失函数量化预测与目标之间的不匹配,是神经网络通过遵循损失梯度(最陡下降方向)寻求最小化的目标。训练完成后,神经网络充当将输入协变量映射到迁徙流量的函数(扩展数据图1)。通过训练神经网络族并将输入数据的不确定性"推过"网络,该方法还实现了不确定性量化,使研究人员能够 pinpoint 数据不一致、应改进收集的国家。

这标志着全球迁徙建模计算工具集的范式转变。大多数过去技术仅依赖联合国经济和社会事务部发布的移民存量数据,提供1990年起每五年的估计。最简单的估计技术基于存量差分,假设双边流量Fij等于存量差Sbj(t+1) ? Sbj(t)且b = i。负差异被舍弃(意为零流量)或计入相反方向的流量。这里简化的假设是双边迁徙流量仅从个人出生国流向目的地,即英国的瑞典人存量变化仅因瑞典人从瑞典到达和返回;而非因瑞典人从挪威到达。为对此进行修正,研究人员提出了更复杂的所谓人口核算方法。这些尝试推断三维流量矩阵Tbij,每个条目模拟出生于b的人从i到j的流量,允许更大灵活性,但也极大增加了待估计参数数量。流量表被约束使其估计重现存量差异。这些通常首先调整以解释出生和死亡,由此估计的流量仅重现非由人口变化引起的存量变化。

基于存量的流量估计方法均将存量数据视为准确;也无法提高估计的时间分辨率,因此迄今仅产生五年或十年期流量(联合国经济和社会事务部或世界银行数据的分辨率)。替代方案是使用引力模型,广义指任何将流量与一组协变量χ相关联的回归方法。这些模型原则上可在协变量质量足够且选择恰当时捕捉任何分辨率的流量;然而,它们在模拟迁徙时表现往往较差,即使拥有大量复杂的协变量集合。将迁徙建模为对数Tbij(t)=f(χbij(t))的根本问题在于其将人类视为马尔可夫性的,仅基于世界当前状态行动而忽视过去。这在考虑对突发性灾难事件的响应时或许合理,但纳入长期宏观层面的政治、经济或社会指标时则难以成立。离开的决定在大多数情况下不仅基于当前经济环境:过去数年的危机可影响个人决策,由于多种滞后效应和复杂反馈回路。任何不 accounting for the system's memory 的模型 thus fail to accurately reproduce, let alone explain, the temporal and spatial variance in human migration。研究人员使用循环神经网络,通过维持随时间变化的"隐藏"或"潜藏"状态z(t)实现一种"记忆"形式。这使网络能够使用动态滤波器选择性地保留过去信息,并学习 varying length 的时间相关模式。潜藏状态纳入过去动态以告知今日流量,而不假设迁徙流量的时间平稳性,后者通常是不稳定的。

近年来机器学习方法在预测和解释人类迁徙和流动模式方面的应用急剧增加。大多数应用致力于解决城市、区域和国家内的通勤和流动模式。迁徙研究中的建模工作 largely focused on internal moves within countries,包括对流动气候和环境驱动因素的分析,以及预测庇护申请和非常规国际迁徙进入主要为高收入西方国家。与全球迁徙数据设置不同,该近期文献中的移动响应变量源自单一来源,不存在结合测量和多源数据的挑战。此外,这些研究的重点并非量化全球层面的国际迁徙规模和模式,而是提供优于经典建模方法的外推预测,或帮助在数据丰富的环境中检测协变量因素与流动或迁徙的可能联系。

研究结果部分,"全球迁徙地图"显示,自2000年以来,全球迁徙流量从每年1300万人上升至2023年的约3500万。这一趋势不能被全球人口增长解释,因为人均迁徙同样从2000年的0.2%稳步上升至2023年的0.45%。千禧年以来,全球总迁徙仅经历两个持续下降期:2008至2009年大衰退期间和2020年COVID-19大流行期间。登记的最大单年事件是1994年卢旺达至刚果民主共和国的人口流动,总计近95万人。全球范围内,中东经历了最高的总移民流入,主要来自南亚和菲律宾,仅孟加拉国至沙特阿拉伯的移民自2010年起平均每年约30万人。研究人员估计,自2010年以来,总计1900万人(平均每年135万)从印度、巴基斯坦和孟加拉国迁徙至沙特阿拉伯、卡塔尔、巴林和阿联酋——这相当于1990年以来整个时期从墨西哥到美国1.36亿次移动的规模。欧洲始终排名区域内迁徙量最高的地区,仅在1990年代初卢旺达内战期间被撒哈拉以南非洲超越一次。2020年前,欧洲总流量达到每年约300万人,在2000年代和2010年代欧盟和申根区东扩后稳步增长。1990年以来从东欧到西欧的流量总计约2000万,或每年60万。1991年苏联解体后的欧洲内部流量快照显示,该年欧洲内部流量约达202万人,其中仅出生于波兰、俄罗斯、乌克兰和罗马尼亚的人口就达80.7万。最大的移动发生在乌克兰与俄罗斯、哈萨克斯坦与俄罗斯之间,以及进入德国。此期间研究人员观察到高水平的回迁(双向移动),一些人寻求返回出生国,另一些人为寻求经济机会而迁往国外。

"全球南方的迁徙"部分指出,欧洲或许是所需详细迁徙模式分析最少的地区,因为数据相对充足。该数据集的价值主要在于揭示世界其他地区尤其是全球南方的流动情况。2010年代中期,撒哈拉以南非洲发生了 several large-scale migration events。2013年起, newly independent country of South Sudan 内战肆虐,导致大量人口外流至邻国埃塞俄比亚。联合国难民事务高级专员将所有在埃塞俄比亚的南苏丹移民归类为难民。西非也爆发暴力,恐怖组织博科圣地自2009年起对尼日利亚政府发动武装叛乱,2014年急剧升级袭击,包括绑架近300名女学生。仅2013至2014年,研究人员估计约79,000名尼日利亚出生者移动或逃往邻国乍得、尼日尔、喀麦隆——其中多数(45,000人)前往尼日尔。2009至2019年间,研究人员估计向这三个国家的尼日利亚出生者外流为250,000人,标准差为31,000。这一数字被国际移民组织估计的约240万国内流离失所者所 dwarf。与此同时,中非共和国持续内战导致向邻国喀麦隆、刚果民主共和国和乍得的持续外流。

"修订联合国数据"部分展示所选国家的净迁移估计值与2024年《世界人口展望》估计值MWPP的比较。该数据集为这些 valuable correction to these figures,后者如前所述从人口残差而非迁徙统计计算:MWPP(t)=ΔP(t)?(β(t)?γ(t))P(t),其中P(t)为总人口,β和γ分别为粗出生率和死亡率。《世界人口展望》数据的变异常由人口数据异常引起,强烈影响人口变化ΔP,导致例如越南净迁移在约2008年飙升后于2010年回落至零。尽管联合国数据显示俄罗斯自1995年以来为正移民净流入,研究人员估计显示俄罗斯净迁移实际上在2005年左右转为负值——这一趋势仅因2022年乌克兰人外流而逆转。

"有意义的不确定性量化"部分展示研究人员净迁移估计值与最新《世界人口展望》估计的相关性。研究人员看到在经合组织国家( unsurprising as these countries make up much of the target data)以及非洲部分和中亚地区的强正相关。印度净迁移估计值大致遵循《世界人口展望》趋势,但波动较小;2003年开始的产业工人向海湾国家的外流清晰可见。尼日利亚净迁移估计 meanwhile are among the most uncertain of our model predictions:对于非洲,尤其是撒哈拉以南非洲,净迁移的不确定性位居世界最高。相比之下,欧洲和其他富裕西方国家的不确定性相对较低,得益于更丰富、更高质量的数据以及更稳定的迁徙制度。不确定性的显著区域异质性凸显了在资源不足环境中改进数据收集作为更精确迁徙估计先决条件的重要性。

"测试与验证"部分通过五折交叉验证测试神经网络再现未见数据的能力:将流量走廊分为五组,每组训练四个子集随机初始化的网络,最后一子集作为测试集。借鉴先前工作,研究人员主要通过相关性指标而非平均误差评估性能,以便在迁徙定义不一致的数据集间进行有意义的比较,并容纳估计中可能存在的常数偏倚。神经网络在训练数据上达到94%相关性,在测试流量上达到73%相关性,中值相对误差仅增加4%。通过检查每条走廊的相关性分布,发现神经网络通常匹配训练数据在测试集上的相关性分布。模型估计的流量不确定性与QuantMig欧洲数据的不确定性匹配良好,同时产生的人口存量不确定性通常高于通过人口核算程序获得的结果。进一步实验评估高收入国家的广泛迁徙数据是否偏倚全球流量的推断。当该子集被剔除后,其他区域的预测保持稳定,表明模型不会将高度发达区域的特定动态转移至世界其他地区。剔除2015年后所有观测的检查显示,发展中区域的预测无显著变化。

讨论部分指出,人类流动数据 notoriously unreliable, noisy and—crucially—absent for large parts of the world。本研究 substantially increases both the spatial and temporal resolution of existing migration estimates,提供了完整的年度移民存量数据集、每个国家的净迁移数据,以及按出生国分解的双边流量。可靠的迁徙数据对寻求建立迁徙与经济或社会结果联系的社会科学家、追踪传染病动态流行病学家,以及制作稳健人口预测的人口学家至关重要。该数据集连同补充训练数据(包括230个国家和地区的实际GDP估计)提供了宝贵的新资源。更重要的是,本研究为应对全球迁徙建模的下一个前沿奠定了基础。一个新兴方向是从国家层面流量转向更地理细粒度的模型。许多最大规模的人口流动发生在国家内部而非跨境。以国家替代更精细的空间网格作为分析单位将代表统计人口学的重大进步。该框架非常适合支持这一转变。近期发布了10平方公里尺度的高分辨率人口数据集,可用于训练此类模型。类似的循环架构将需要捕捉空间相关性,允许一个单元的流出影响远处邻近地区的流动。正如研究所展示的,深度神经网络非常适合学习此类时空长程依赖——包括通过更先进的transformer和图神经网络架构。这些模型可进一步增强方法在具有复杂空间结构的环境中的能力。

研究表明,机器学习允许在估计全球迁徙时整合多种迁徙数据源和指标。结合数据通过利用传统和基于数字足迹来源的优势提高了迁徙估计的稳健性。协变量信息有助于补充估计,尤其在迁徙数据稀疏之处。与迁徙-发展关联文献一致,研究人员发现估计对缓慢变化的发展指标更为敏感,这些指标塑造长期迁徙机会和约束。相比之下,难民数量和冲突指标等更快变化的因素在全球尺度上似乎 less determinant,可能因为其效应集中于有限数量的走廊,而非对国家产生广泛影响。深度学习模型还捕捉复杂的非线性和阈值效应,可纳入人类系统对尚未预见事件的响应,如气候冲击或先前稳定地区新出现的冲突。年度估计提供了比现有数据更丰富的全球迁徙经验基础,与联合国转向单一年度人口估计的举措一致,并回应了对更适合整合入气候建模框架和支持循证决策的时间更精细迁徙数据的呼吁。所有估计均为神经网络 ensemble 的合成输出,从未通过个体记录的直接聚合得出。因此,它们不携带任何个体的识别信息,包括具有非规则迁徙身份的人员,即使在原则上聚合统计可能引发披露担忧的小流量情况下也是如此。该方法学习宏观经济、人口统计和地理协变量与观测迁徙模式之间的广泛统计关系;不可用于推断任何个人的身份、状态或位置。研究人员 nonetheless recognize that improved estimates of migration flows could in principle inform enforcement or border policy,并鼓励该数据的用户参与既定的迁徙数据使用伦理框架,包括机构间常设委员会人道主义行动数据责任操作指南和国际移民组织人道主义部门高级数据科学方法伦理使用框架。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号