
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于贝叶斯空间聚类系数模型的时间结构分析:韩国甲型肝炎数据的时空动态研究
【字体: 大 中 小 】 时间:2025年09月22日 来源:Journal of Applied Statistics 1.1
编辑推荐:
本刊推荐一篇创新性研究,该文针对韩国2020-2021年月度甲型肝炎数据,提出一种结合时空结构的贝叶斯空间聚类系数模型(Bayesian Spatially-Clustered Coefficient Model with Temporal Structures),有效捕捉风险效应的异质性时空变化。研究采用两阶段建模框架(Two-stage Framework)缓解空间混淆偏倚(Spatial Confounding Bias),通过零膨胀泊松回归(Zero-Inflated Poisson Regression)和条件自回归先验(ICAR)识别具有相似时间模式的区域聚类,为甲型肝炎的精准防控提供统计依据。
甲型肝炎是一种高度传染性的病毒性肝脏感染,在卫生条件较差的地区尤为普遍。本研究分析了韩国2020年1月至2021年12月间的月度甲型肝炎发病率数据,覆盖250个行政区划单位,时间跨度为24个月。数据显示,44.55%的月度感染记录为零,表明零膨胀模型(Zero-Inflated Poisson, ZIP)的适用性。
空间分布分析表明,西北部都市区及西部区域发病率较高,而南部和东部地区相对较低。莫兰指数(Moran’s I)显示自2020年7月起存在显著的空间依赖性(p<0.001),最高值为2021年8月的0.439。时间序列分析揭示了感染的季节性波动,2020年6-8月和10-12月为高发期,2021年5月出现峰值后逐渐下降。自相关函数(ACF)表明数据存在时间相关性,滞后3期内系数超过0.4。
研究考虑了人口统计学和气候因素作为协变量,包括年度老年人口比例(≥65岁)、性别比(男性/女性)、人口密度,以及月总降水量和月平均温度。气候数据来自韩国国家气候数据中心,人口数据来自政府开放数据门户。既往研究表明,气温和降水量与甲型肝炎发病率显著相关。
空间分析显示,平均温度存在明显的季节性和区域性差异,冬季东部较暖,夏季西部较热。皮尔逊相关性分析进一步揭示,甲型肝炎感染率与平均温度的关系因区域而异,且具有时空异质性。例如,不同省份(如首尔、庆尚道、全罗道)的相关性时间模式呈现聚类特征,提示风险效应在空间和时间上均存在动态变化。
为处理零膨胀和空间混淆问题,研究采用两阶段建模框架。第一阶段拟合仅含协变量的零膨胀泊松模型(Covariates-only Model):
log(λit) = β0 + Xit?βit + log(Nit)
logit(pit) = α0 + Zit?α
其中,λit 为泊松分布的期望计数值,pit 为零膨胀概率,Nit 为人口偏移量。
第二阶段引入空间聚类系数和时间结构。假设协变量效应存在空间聚类且簇内时间模式同质,即 βit = βc(i),t,其中 c(i) 表示区域 i 所属的空间簇。簇分配通过类别分布(Categorical Distribution)建模,其权重通过内在条件自回归(ICAR)先验捕捉空间依赖性。时间模式采用自回归(AR)或随机游走(RW)过程描述,例如:
βp,c(i),t ~ N(ρc(i)βp,c(i),t-1, σβc(i)2)
为缓解空间混淆,研究首先独立估计时空随机效应 STit,其包含空间非结构化效应(νi)、空间结构化效应(ξi)、时间非结构化效应(τt)、时间结构化效应(ψt)和时空交互效应(?it)。第二阶段将估计的 STit 作为输入重新拟合风险效应。
参数估计通过马尔可夫链蒙特卡洛(MCMC)方法实现,使用 NIMBLE 包在 R 环境中完成。先验设置采用无信息先验:回归系数服从 N(0, 102),标准差服从 Uniform(0, 10)。空间簇标识 c(i) 通过后验众数估计,其他参数通过后验均值估计。MCMC 采样设置单链长,丢弃前150,000次迭代作为预烧期,之后以50为间隔抽取5,000次样本。收敛性通过轨迹图和Geweke诊断评估。
研究比较了8种模型,分为是否采用两阶段框架(M2、M4、M6、M8采用)以及系数结构(常数、仅时间、仅空间、时空交互)。具体包括:
M1/M2:常数系数
M3/M4:时间变化系数 βt
M5/M6:空间聚类系数 βc(i)
M7/M8:时空聚类系数 βc(i),t
模型评估采用平均绝对误差(MAE)、均方预测误差(MSPE)和边际预测似然(MPL)。其中,MPL 基于条件预测 ordinate(CPO)计算,反映模型的整体预测能力。
模型比较表明,采用两阶段框架的模型(偶数编号)在MPL上优于未采用的模型(奇数编号)。M8(时空聚类系数+两阶段)在2个空间簇的设置下表现最优,其MAE和MSPE最低(0.491和0.741),MPL最高(-5955.325)。变量选择后,月总降水量和月平均温度被保留在零膨胀部分,其他协变量进入计数部分。
空间聚类结果将区域分为2簇:簇1(86区域)主要位于南部,簇2(164区域)以中部和北部内陆为主。平均温度的系数在簇1始终为负,簇2始终为正,且时间模式显著不同。例如,2020年2月,温度升高1°C导致簇1地区发病率下降65.3%,簇2地区上升38.7%。其他显著协变量包括性别比(男性比例高则风险高)、老年人口比例(低则风险高)和降水量(高则风险高)。
本研究通过贝叶斯时空聚类系数模型,揭示了甲型肝炎风险效应的异质性时空模式。两阶段框架有效缓解了空间混淆偏倚,模型优于常数系数、仅时间或仅空间的替代模型。研究发现平均温度的影响存在区域差异,南部为负相关,北部为正相关,这与既往研究认为温度 universally 正相关的结论形成对比。结果对制定区域特异性防控策略具有重要启示。
未来研究可探索通过可逆跳跃MCMC(Reversible Jump MCMC)自动估计聚类数量,并扩展模型以同时处理多个协变量的时空异质性。此外,本模型框架可适用于其他传染病(如COVID-19或恙虫病)的时空分析。
生物通微信公众号
知名企业招聘