编辑推荐:
在现代研究中,因缺乏精细粒度数据,难以开展个体行为建模。研究人员基于美国人口普查局和环保局数据,用迭代比例拟合(IPF)生成 2019 年美国合成人口数据集。该数据集与原始数据相关性强,有助于多领域研究,推动政策制定与规划。
在当今科学研究领域,随着计算效率的提升以及诸如基于代理的模型(agent - based models)和微观模拟(microsimulations)等建模与模拟框架的发展,人们有能力处理更高保真度的数据集。这些模型在探究个人行为、政策选择以及公共卫生如何受复杂系统中相互作用影响方面具有独特优势。然而,现实却存在着明显的阻碍。许多政府机构虽会发布关于人口的宏观统计数据,但能用于建模个体行为的精细粒度数据却极为有限。例如,在模拟疾病传播时,若仅依靠宏观数据,很难深入了解个体的流动性、接触模式以及健康状况等关键因素对疾病动态的影响。而实际的个体家庭和个人层面的人口普查数据,出于安全和隐私的考虑,并未公开。这就如同在搭建一座宏伟的科学研究大厦时,缺少了关键的基石,使得许多关于个体行为的研究难以深入开展。为了填补这一数据鸿沟,合成人口生成方法应运而生。但现有的许多新兴建模方法,如基于代理的建模和微观模拟框架,往往依赖一些隐含假设,与实际情况存在差异。在此背景下,开展一项能生成准确、可用的合成人口数据集的研究显得尤为迫切。
RTI International 的研究人员肩负起了这一重任,他们开展了关于生成美国合成人口数据集的研究。最终成功创建了包含美国所有家庭及其相关人员记录的合成人口数据集,该数据集涵盖了家庭构成、地理位置、个人人口统计数据(如收入、种族、性别、年龄、族裔等)等丰富信息。这一成果意义非凡,它为众多领域的研究提供了强有力的数据支持。无论是在流行病学、社会科学还是经济分析领域,研究人员都可以借助这个数据集深入探究各种问题,推动相关政策的制定和规划,助力社会的发展和进步。该研究成果发表在《Scientific Data》杂志上。
在这项研究中,研究人员运用了多种关键技术方法。首先,数据来源上,他们依赖美国人口普查局提供的三个数据集,即 2015 - 2019 年美国社区调查(American Community Survey,ACS)5 年数据的详细表格、公共使用微观数据样本(Public Use Microdata Sample,PUMS),以及美国人口普查局拓扑集成地理编码和参考(Topologically Integrated Geographic Encoding and Referencing,TIGER)数据,还使用了美国环境保护署(Environmental Protection Agency,EPA)的综合气候和土地利用情景(Integrated Climate and Land Use Scenarios,ICLUS)项目的人口数据。其次,在合成人口的生成过程中,采用迭代比例拟合(Iterative Proportional Fitting,IPF)算法计算联合计数数据,从 PUMS 中采样家庭和相关人员,构建非空间合成家庭数据集,再利用 ICLUS 数据进行空间分配,得到最终的数据集。
研究结果主要包括以下几个方面:
- 数据记录:合成人口数据以表格文件形式呈现,每个州都有对应的家庭和个人文件,通过家庭 ID(hh_id)可将两者关联起来,方便研究人员进行分析。
- 技术验证:在验证合成人口的家庭和个人层面属性时,计算了皮尔逊相关系数(Pearson’s r)、归一化标准化均方根误差(Normalized Standardized Root Mean Square Error,NRMSE)和相对绝对误差(Relative Absolute Error,RAE)等指标。结果显示,合成家庭的变量与实际数据相关性强,总体家庭计数相关性达到 0.999;合成人口中个人变量与实际数据也有较强相关性,总体人数计数相关系数为 0.96,但存在一定程度的低估。同时发现,变量扩展对数据验证影响较小,97.3% 的记录能按要求匹配。
- 使用说明:合成数据采用 parquet 格式,便于用多种软件和分析包处理。研究人员利用该数据创建了虚拟北卡罗来纳州人口数据集,用于分析阿片类药物流行相关问题,为深入研究当地环境背景提供了资源。
研究结论表明,该研究成功生成了具有高相关性和准确性的美国合成人口数据集。尽管存在一些局限性,如未考虑群体宿舍和无家可归等非家庭相关个体,但在多数人口统计群体中,合成人口计数在州层面与预期人口的误差在 ±10% 以内。这一数据集为众多领域的研究提供了宝贵的数据支持,有助于研究人员更深入地了解复杂系统中个体行为、政策影响等问题,推动了基于数据的决策制定和政策规划。在未来的研究中,有望基于此数据集进一步拓展研究领域,完善相关模型,为解决更多社会和健康问题提供有力的支撑。