面向弱势群体健康效应评估的空间解析合成人口生成新方法及其在环境正义分析中的应用

《GeoHealth》：A Novel Method for Generating Spatially Resolved Synthetic Populations for Health Impact Assessments in Vulnerable Populations

【字体：大中小】 时间：2026年01月06日 来源：GeoHealth 3.8

编辑推荐：

　　本文提出了一种创新的地址级合成人口生成方法，通过结合组合优化（combinatorial optimization）和倾向评分匹配（propensity score matching）算法，利用公开的美国社区调查（ACS）微数据和房产税数据，构建了高空间分辨率的人口数据集。研究以波士顿神秘河流域临近主要道路的暴露为例，证明了该方法相较于随机分配能更精确地识别环境暴露（如E+）与社会经济效应修饰因子（如M+）的交互作用，从而在健康影响评估（HIA）中减少暴露错误分类，为环境正义（EJ）和精准公共卫生干预提供了重要技术支撑。

1 引言

环境危害的分布在空间上具有高度异质性，且往往不成比例地集中在弱势群体社区，引发了广泛的环境正义（Environmental Justice, EJ）关切。然而，在进行环境暴露与健康影响分析时，高分辨率的暴露数据（如卫星遥感数据）与受隐私保护限制而通常仅能获取到较粗空间尺度（如人口普查区，census tract）的人口社会学数据之间存在严重的不匹配。这种空间分辨率的错配可能导致环境正义分析出现偏差，甚至掩盖真实的暴露不平等问题。合成人口（Synthetic Population）作为一种模拟数据集，通过将粗分辨率个体数据与高分辨率人口层面特征协变量相结合，成为解决这一数据鸿沟的有效策略。然而，现有的合成人口方法多停留在人口普查区尺度，难以捕捉许多在几十米尺度内就发生剧烈变化的环境暴露（如交通相关空气污染）。本研究旨在开发一种新颖的两阶段方法，首先生成普查区级合成人口，继而利用匹配算法将其降尺度分配至地址级的地块（parcel），从而构建出更高空间分辨率的合成人口数据集，并以临近主要道路这一具有高度空间异质性的暴露为例，探讨该方法在环境正义分析和健康影响评估（Health Impact Assessment, HIA）中的应用价值。

2 材料与方法

2.1 研究区域

研究区域选定为美国马萨诸塞州大波士顿地区的21个神秘河流域（Mystic River Watershed, MRW）内的城市和城镇。该区域是一个高度城市化的流域，包含了从城市核心区到郊区的多种社区类型，人口在财富、种族和民族方面存在显著差异，是研究环境暴露社会人口学模式的理想区域。

2.2 方法概述

本研究方法分为两个核心阶段。第一阶段，利用组合优化与模拟退火（simulated annealing）算法，基于2021年美国社区调查（American Community Survey, ACS）的公共使用微数据样本（Public Use Microdata Samples, PUMS）和普查区级的约束变量表，生成普查区级的合成人口数据集。第二阶段，提出一种新颖的匹配算法，将第一阶段生成的合成人口家庭分配到马萨诸塞州地理信息系统（MassGIS）提供的房产税地块数据中的具体地块上。该匹配算法基于房产属性（如房间数量、建筑总价值、建筑年份）与合成人口家庭属性的相关性，采用类似于观察性流行病学研究中常用的倾向评分匹配（propensity score matching）方法，进行1:1最近邻匹配，从而将家庭“智能地”分配到与之特征相似的地块上。作为对比，研究还进行了随机分配。

2.3 应用案例：临近主要道路的居住暴露

为验证方法的效用，研究选取“居住地距离主要道路（如州际公路、高速公路、州道）50米以内”作为高暴露（E+）的指标，这是一个与多种健康不良结局（如心血管、肾脏、神经系统疾病及不良出生结局）相关，且具有高度空间异质性的暴露代理指标。研究将家庭年收入低于州中位数（$92,092.71）定义为低收入（M+），并比较了匹配分配与随机分配两种方法下，高暴露低收入家庭的比例以及个体家庭暴露错误分类的情况。

2.4 假设性健康影响评估

为了进一步阐明不同分配方法对健康效应评估的影响，研究设计了一个假设性的健康影响评估模型。该模型采用逻辑回归框架，设定了暴露（E）、效应修饰因子（M）以及它们的交互项（E×M）对健康结局发生概率的影响。通过模拟不同强度的暴露主效应（β_E）、修饰因子效应（β_M）和交互效应（β_E×M），并设定暴露与修饰因子之间不同的条件概率（如P(M+|E+) 和 P(M+|E-)），系统比较了基于匹配分配和随机分配数据所估算出的健康结局（病例数）差异。

3 结果

3.1 合成人口数据集特征

研究成功生成了一个包含464,490个家庭的地址级合成人口数据集。普查区级合成人口的总体平均误差每户（OTAE/HH）较低，表明其能较好地拟合普查区约束条件。匹配算法的协变量（房间数、建筑价值、建筑年份）标准化均值差较小，说明匹配后处理组（房产数据）和对照组（合成人口）在这些特征上达到了良好的平衡。描述性统计显示，该区域合成人口以白人（85.2%）、高学历（57.1%）、自有住房（67.4%）为主。在临近主要道路（<50m）的家庭中，低收入比例（51.2%）、租房比例（34.3%）和小户型（房间数<6，48.5%）比例略高于远离道路的家庭。

3.2 暴露错误分类分析

研究发现，与使用普查区平均暴露值相比，在地块级别分配暴露能更真实地反映暴露的空间异质性，避免了因空间聚合导致的暴露错误分类。在聚合层面，匹配分配与随机分配得出的高暴露低收入家庭比例非常接近（匹配：3.3%，随机：3.4%），差异微小。然而，在个体家庭层面，暴露错误分类非常严重。在匹配分配中确定的15,335户高暴露低收入家庭中，随机分配仅正确识别了3,145户（约21%）。同时，随机分配产生了大量的“假阳性”（匹配分配中为低暴露低收入，但随机分配中误判为高暴露）和“假阴性”（匹配分配中为高暴露低收入，但随机分配中误判为低暴露）错误分类。

3.3 假设性健康影响评估结果

模拟的HIA结果表明，当暴露与效应修饰因子之间存在强关联（例如P(M+|E+) = 0.90, P(M+|E-) = 0.10）且存在非零的交互效应（β_E×M≠ 0）时，使用随机分配数据会系统性地低估高暴露高风险修饰因子亚组中的健康结局病例数。这种低估的程度随着交互效应强度（β_E×M）的增加而增加，并受到暴露主效应（β_E）相对大小的影响。当暴露与修饰因子的关联程度减弱时，低估的幅度也会减小。

4 讨论

本研究首次开发并应用了一种结合组合优化和匹配算法的两阶段方法，成功构建了地址级的高空间分辨率合成人口数据集。案例研究证明，该方法能够更精细地揭示环境暴露的社会人口学分布模式。尽管在聚合层面，匹配分配与随机分配的结果差异可能不大，但在个体层面存在的严重暴露错误分类，对于依赖于多变量流行病学证据（特别是存在效应修饰时）的健康影响评估和环境正义分析可能产生重要影响，导致对弱势群体健康负担的系统性低估。本研究方法完全基于公开数据，具有良好的可重复性，可推广至美国其他地区，为开展更精准、更公平的环境健康研究提供了有力的数据工具。未来的研究方向包括将方法拓展至农村地区、整合时间活动模式以及加强社区参与以确定相关暴露和验证研究结果。

5 结论

本研究开发的地址级合成人口生成方法，有效解决了高分辨率环境暴露数据与粗尺度人口数据之间的空间错配问题。通过临近主要道路的案例研究，证实了该方法在减少暴露错误分类、更准确评估环境暴露 disparities 以及提高健康影响评估准确性方面的潜力。利用合成人口将社会人口学数据降尺度至地址水平，能够为环境正义分析和健康影响评估提供更显著、更细致入微的见解。

热点排行

新闻专题