
-
生物通官微
陪你抓住生命科技
跳动的脉搏
半参数化方法在大型环境流行病学队列研究中缓解空间混杂效应的创新应用
【字体: 大 中 小 】 时间:2025年08月04日 来源:Environmetrics 1.7
编辑推荐:
这篇综述系统比较了使用薄板回归样条(TPRS)缓解空间混杂偏倚的多种半参数化方法,包括空间增强模型(Spatial+)、地理加性结构方程模型(gSEM)、Keller-Szpiro方法(KS)和暴露惩罚样条(E-PS),并提出新型自由度选择空间增强模型(df-Spatial+)。研究通过模拟实验和科罗拉多州出生队列实证分析,证实KS-AIC方法在多数场景下能最优平衡偏差与精度,为环境流行病学研究提供了可靠的统计工具。
ABSTRACT
环境风险因素的流行病学分析常涉及空间变化的暴露和结局变量。未测量的空间变异因素可能导致健康效应估计的混杂偏倚。研究系统评估了使用薄板回归样条(TPRS)缓解空间混杂的多种半参数方法,通过模拟实验和真实数据分析比较不同方法的性能。
1 Introduction
大规模环境流行病学研究常分析具有空间特征的变量,如空气污染(PM2.5)浓度、温度与痴呆发病率、出生体重等健康结局的空间分布。当存在未测量的空间混杂因素时,暴露-结局关联估计可能产生偏倚,这种现象称为空间混杂(spatial confounding)。
现有方法主要分为两类:使用TPRS的半参数化方法和基于空间随机效应的参数化方法。前者包括地理加性结构方程模型(gSEM)、空间增强模型(Spatial+)、Keller-Szpiro方法(KS)和暴露惩罚样条(E-PS)等,计算效率更高;后者如限制性空间回归(RSR)和贝叶斯方法,计算更复杂。本研究聚焦TPRS方法,为大型环境流行病学研究提供实用解决方案。
2 Methods
2.1 数据生成模型
定义Y为结局变量,X为暴露变量,s为空间位置,C为测量协变量,U为未测量空间混杂。暴露和混杂来自三个独立空间场的组合,分别服从多元正态分布。通过控制空间场范围参数(φ)和非空间误差(σ),模拟不同场景。
2.2 现有半参数方法
TPRS通过低秩近似实现高效空间建模。关键差异在于:(1)样条数量选择;(2)是否使用惩罚;(3)样条应用于暴露、结局或两者。具体方法包括:
空间未调整模型:忽略U导致估计偏倚
Spatial+:两阶段法,先用TPRS拟合暴露获得残差,再用残差和TPRS拟合结局
gSEM:分别用TPRS拟合暴露和结局,再用残差进行回归
KS:基于AIC/BIC选择TPRS自由度,直接拟合结局模型
E-PS:从暴露模型获取平滑参数用于结局模型
2.3 新型df-Spatial+方法
结合Spatial+框架和KS的自由度选择策略,通过信息准则确定最优样条数量,提高模型灵活性。
3 Simulations
3.1 模拟设置
在[0,10]×[0,10]空间网格生成数据,比较连续和二分结局场景。评估参数包括:
非空间误差大小(σX, σY)
空间场范围(φ=50,5)
协变量调整
计算500次重复的均方根误差(RMSE)、偏倚和95%CI覆盖率。
3.2 结果
关键发现:
当φ=50(长程空间变异)时,KS-AIC表现最优(RMSE=0.162,偏倚=0.101)
φ=5(短程变异)时所有方法性能下降,但KS-AIC仍保持相对优势
暴露无空间变异(σX=0)时,KS方法显著优于其他方法
二分结局中KS-AIC保持最低偏倚,但Spatial+GCV在部分场景表现更优
增加协变量不影响方法间相对性能排序
4 Data Analysis
应用科罗拉多州2007-2018年611,096例活产数据,分析第三孕期PM2.5和最高温度与出生体重Z评分(BWGAZ)的关联:
未调整模型显示PM2.5每增加1μg/m3,BWGAZ增加0.031(0.010,0.052),与文献预期方向相反
空间调整后,所有方法估计值趋近零且不显著
KS-AIC选择50个样条,有效带宽约13km
样条数增加时估计值出现跳跃,与特定样条和剩余空间信息的强相关有关
5 Discussion
综合理论、模拟和实证证据表明:
KS-AIC在多数场景下能最优平衡偏差与精度
当暴露无空间变异时,空间调整效果最显著
二分结局分析需要更大样本量
实际应用中可通过有效带宽指导样条数选择
研究为环境流行病学中的空间混杂问题提供了方法学指导,推荐使用KS-AIC进行常规分析。未来可扩展至时空建模和重复测量数据分析。
生物通微信公众号
知名企业招聘