精准映射美国选区投票数据至人口普查地理单元:RLCR方法的数据集构建与验证

【字体: 时间:2025年05月16日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对美国选区(precinct)投票数据与人口普查地理单元(census geographies)匹配精度不足的问题,开发了基于区域化土地覆盖回归(RLCR)的投票数据分配方法。通过整合2016和2020年大选数据、NLCD土地覆盖数据及ACS人口数据,构建了覆盖block groups、census tracts和ZCTAs的多尺度数据集。验证显示RLCR方法在MAE、RMSE等指标上显著优于传统面积法和不透水面法,为选举行为与人口统计、公共健康等跨学科研究提供了高精度空间分析工具。

  

在美国选举研究中,选区(precinct)作为最小投票统计单元,长期面临与人口普查地理单元(如block groups、census tracts)的空间匹配难题。政府机构提供的非选举数据(如人口统计、社会经济指标)通常仅发布在普查单元层面,而选区级数据缺失导致精细尺度分析受限。传统研究多依赖县级聚合数据或ANES调查,这种粗粒度分析可能掩盖选区内部异质性——例如同一县域内蓝领与白领群体的投票倾向差异。Texas A&M University-San Antonio的Amir Fekrazad团队在《Scientific Data》发表的研究,通过创新性空间分配方法解决了这一瓶颈问题。

研究团队开发了可复现的计算框架,整合三大类数据源:VEST/MEDSL提供的2016-2020年选区边界与选举结果、Census TIGER/Line地理边界、NLCD 30米分辨率土地覆盖数据。关键技术包括:1)基于QGIS的空间相交算法创建precinct-block group交叉单元(fractions);2)区域化土地覆盖回归(RLCR)模型,通过聚类block groups建立土地覆盖类型与人口的区域特异性关系;3)利用不透水面比例(Imperviousness)和简单面积法构建对照数据集;4)使用2020年人口普查块级数据和北卡罗来纳州选民登记数据双重验证。

方法学创新
研究提出RLCR方法的核心突破在于:将block groups聚类为最小源区(source zones),通过约束回归(nnls算法)估算12类可居住土地覆盖(如高/中/低密度建成区、农田)的人口贡献系数。相较于传统面积法假设均匀分布,RLCR能捕捉区域差异——例如爱荷华州2,703个block groups被划分为166个聚类,每个聚类独立建模。人口分配时优先使用家庭人口(household population)而非总人口,有效规避监狱等群体居住区的投票资格干扰。

验证结果
与2020年人口普查块级数据对比显示,RLCR的MAE(24.08)显著低于面积法(28.98)和不透水面法(29.37)。北卡罗来纳州选民登记数据验证中,RLCR的 tract级投票数预测MAPE为11.59%,考虑3.8%地址无法地理编码的固有误差后表现优异。视觉验证通过宾夕法尼亚州总统选举地图证实,RLCR能保持原始选区的党派倾向空间模式。

应用示范
通过构建选民投票率(turnout)与ACS社会经济变量的回归模型,发现不同方法可能导致结论差异:在农村地区(低人口密度区),面积法与RLCR的income变量t值差异高达54.66%,凸显方法选择对统计显著性的影响。数据集已与CDC Places、FEMA风险指数等公共数据实现无缝对接,支持健康-选举行为、气候政策偏好等跨学科研究。

结论与展望
该研究建立了首个全国尺度、方法学透明的选区-普查单元关联数据集,其RLCR方法通过土地覆盖与人口的空间耦合关系,实现了亚公里级精度的投票数据重构。相较于现有工作,主要进步体现在:1)引入动态区域聚类解决地理异质性;2)系统比较三种分配策略的适用场景;3)提供覆盖block group/tract/ZCTA的多级数据产品。未来计划纳入2024年选举数据,并探索深度学习在人口分布建模中的应用。数据集通过哈佛Dataverse(CC0协议)开放获取,配套代码已在GitHub开源,为选举地理学、健康社会决定因素等研究提供了基础设施级支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号