基于异质性均值-方差关系的潜在类别轨迹建模及其在COVID-19疫情分析中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月09日 来源：Computational Statistics & Data Analysis 1.5

编辑推荐：

　　本研究针对纵向数据中异方差性问题，创新性地提出三种扩展的生长混合模型(GMM)：MV-GMM（均值-方差关系）、RV-GMM（随机残差方差）和RMV-GMM（复合模型）。通过模拟研究和美国县级COVID-19发病率分析，证实模型能可靠估计250条轨迹数据集中的类别特异性参数，其中考虑随机残差方差的扩展GMM显著提升了轨迹分类准确性。该研究为存在异方差性的纵向数据建模提供了新范式。

在生命科学和健康医学领域，纵向数据的异质性分析一直存在重大挑战。传统生长混合模型(Growth Mixture Model, GMM)虽然能识别群体异质性，但通常假设残差方差同质化，忽略了实际数据中普遍存在的异方差现象。这种简化处理可能导致参数估计偏差和错误分类，特别是在COVID-19等传染病传播动态分析中，病例数的波动往往与均值水平存在显著关联。

针对这一关键问题，研究人员开展了一项创新性研究，通过扩展标准GMM框架，系统探讨了异质性方差结构对轨迹分类的影响。研究聚焦两个核心问题：如何有效建模类别特异性的均值-方差关系，以及随机残差方差如何影响模型性能。论文发表在《Computational Statistics》杂志，为复杂纵向数据建模提供了方法论突破。

研究采用贝叶斯框架下的Hamiltonian Monte Carlo(HMC)采样技术，结合Widely Applicable Information Criterion(WAIC)模型选择准则。技术路线包含：1) 构建三类扩展GMM（MV-GMM、RV-GMM、RMV-GMM）；2) 设计包含部分重叠和完全重叠类别的模拟数据集；3) 应用美国3,113个县的COVID-19周发病率真实数据验证模型效能。所有分析均通过Stan软件实现，采用QR分解优化计算效率，并运用标签切换(Label Switching)算法解决混合模型识别问题。

Models
研究提出三类扩展模型：MV-GMM通过log(σ_ε,i)=γ_0,k+μ_iγ_1,k建模类别特异性均值-方差关系；RV-GMM引入随机效应ω_i捕捉个体间残差异质性；RMV-GMM则整合两种机制。模拟显示当真实存在均值-方差关系时，MV-GMM在完全重叠场景下分类准确率(ARI=0.30)显著优于标准GMM(ARI=0.035)。
Estimation
采用分解中心化参数化技巧提升HMC采样效率，相对偏差分析表明：在部分重叠无MV关系场景中，RV-GMM的截距估计偏差最低(-10% vs 标准GMM的-11%)；而当存在MV关系时，MV-GMM的γ_1,k估计偏差<10%，验证了模型可靠性。
Simulation studies
设计250条轨迹、10时间点的模拟数据集显示：RMV-GMM在随机残差方差(σ_ω=0.3)存在时，能准确恢复方差参数(偏差-2.1%)；计算时间分析表明MV-GMM(5,038秒)虽比标准GMM(598秒)耗时更长，但分类精度提升显著。
Case study
对美国县级COVID-19数据分析发现：四类MV-GMM解决方案(WAIC最小)将县域分为增长型(A类22%)、稳定型(B类30%和C类28%)及低发高变异型(D类20%)。值得注意的是，B/C类虽轨迹相似但残差标准差相差50%，证实异方差信息对分类的关键作用。

结论与讨论
本研究证实：1) 在250条轨迹规模上，扩展GMM能可靠识别类别特异性异方差结构；2) 均值-方差关系的纳入使完全重叠类别的区分成为可能；3) COVID-19案例显示地域聚集模式，为精准防控提供统计依据。方法论层面，研究突破传统GMM同方差假设限制，提出的RMV-GMM框架可推广至临床疗效异质性分析等领域。未来研究可探索零膨胀模型处理低计数数据，并开发更高效的采样算法降低计算复杂度。这些发现为复杂纵向数据的异质性建模树立了新标准，对流行病学动态监测具有重要实践价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号