
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于异质性均值-方差关系的潜在类别轨迹建模及其在COVID-19疫情分析中的应用
【字体: 大 中 小 】 时间:2025年05月09日 来源:Computational Statistics & Data Analysis 1.5
编辑推荐:
本研究针对纵向数据中异方差性问题,创新性地提出三种扩展的生长混合模型(GMM):MV-GMM(均值-方差关系)、RV-GMM(随机残差方差)和RMV-GMM(复合模型)。通过模拟研究和美国县级COVID-19发病率分析,证实模型能可靠估计250条轨迹数据集中的类别特异性参数,其中考虑随机残差方差的扩展GMM显著提升了轨迹分类准确性。该研究为存在异方差性的纵向数据建模提供了新范式。
在生命科学和健康医学领域,纵向数据的异质性分析一直存在重大挑战。传统生长混合模型(Growth Mixture Model, GMM)虽然能识别群体异质性,但通常假设残差方差同质化,忽略了实际数据中普遍存在的异方差现象。这种简化处理可能导致参数估计偏差和错误分类,特别是在COVID-19等传染病传播动态分析中,病例数的波动往往与均值水平存在显著关联。
针对这一关键问题,研究人员开展了一项创新性研究,通过扩展标准GMM框架,系统探讨了异质性方差结构对轨迹分类的影响。研究聚焦两个核心问题:如何有效建模类别特异性的均值-方差关系,以及随机残差方差如何影响模型性能。论文发表在《Computational Statistics》杂志,为复杂纵向数据建模提供了方法论突破。
研究采用贝叶斯框架下的Hamiltonian Monte Carlo(HMC)采样技术,结合Widely Applicable Information Criterion(WAIC)模型选择准则。技术路线包含:1) 构建三类扩展GMM(MV-GMM、RV-GMM、RMV-GMM);2) 设计包含部分重叠和完全重叠类别的模拟数据集;3) 应用美国3,113个县的COVID-19周发病率真实数据验证模型效能。所有分析均通过Stan软件实现,采用QR分解优化计算效率,并运用标签切换(Label Switching)算法解决混合模型识别问题。
Models
研究提出三类扩展模型:MV-GMM通过log(σε,i)=γ0,k+μiγ1,k建模类别特异性均值-方差关系;RV-GMM引入随机效应ωi捕捉个体间残差异质性;RMV-GMM则整合两种机制。模拟显示当真实存在均值-方差关系时,MV-GMM在完全重叠场景下分类准确率(ARI=0.30)显著优于标准GMM(ARI=0.035)。
Estimation
采用分解中心化参数化技巧提升HMC采样效率,相对偏差分析表明:在部分重叠无MV关系场景中,RV-GMM的截距估计偏差最低(-10% vs 标准GMM的-11%);而当存在MV关系时,MV-GMM的γ1,k估计偏差<10%,验证了模型可靠性。
Simulation studies
设计250条轨迹、10时间点的模拟数据集显示:RMV-GMM在随机残差方差(σω=0.3)存在时,能准确恢复方差参数(偏差-2.1%);计算时间分析表明MV-GMM(5,038秒)虽比标准GMM(598秒)耗时更长,但分类精度提升显著。
Case study
对美国县级COVID-19数据分析发现:四类MV-GMM解决方案(WAIC最小)将县域分为增长型(A类22%)、稳定型(B类30%和C类28%)及低发高变异型(D类20%)。值得注意的是,B/C类虽轨迹相似但残差标准差相差50%,证实异方差信息对分类的关键作用。
结论与讨论
本研究证实:1) 在250条轨迹规模上,扩展GMM能可靠识别类别特异性异方差结构;2) 均值-方差关系的纳入使完全重叠类别的区分成为可能;3) COVID-19案例显示地域聚集模式,为精准防控提供统计依据。方法论层面,研究突破传统GMM同方差假设限制,提出的RMV-GMM框架可推广至临床疗效异质性分析等领域。未来研究可探索零膨胀模型处理低计数数据,并开发更高效的采样算法降低计算复杂度。这些发现为复杂纵向数据的异质性建模树立了新标准,对流行病学动态监测具有重要实践价值。
生物通微信公众号
知名企业招聘