基于分层潜在类别模型的非完全验证性言语解剖死亡率监测方法研究
《Journal of the Royal Statistical Society Series A: Statistics in Society》:Hierarchical latent class models for mortality surveillance using partially verified verbal autopsies
【字体:
大
中
小
】
时间:2025年10月22日
来源:Journal of the Royal Statistical Society Series A: Statistics in Society 1.5
编辑推荐:
本研究针对突发公共卫生事件中新兴疾病死亡率监测的难题,开发了一种基于分层潜在类别模型的贝叶斯框架。通过分析巴西COVID-19疑似死亡病例数据,研究人员建立了能够灵活捕捉症状联合分布随时间变化的统计模型,并创新性地引入结构化先验提高小亚群估计精度。该方法有效解决了传统言语解剖算法依赖先验知识或大规模标注数据的问题,为资源匮乏地区的死亡率监测提供了重要技术支撑。
在全球公共卫生领域,准确监测死因数据是理解疾病负担和评估干预措施效果的关键环节。然而令人担忧的是,全球仅有约三分之二的死亡事件被登记,其中近半数缺乏明确死因认定,这种数据缺口在最需要信息的低收入国家尤为严重。言语解剖(Verbal Autopsy, VA)作为一种成熟的方法,通过访谈逝者家属收集症状信息,成为医院外死亡事件原因推断的重要工具。
传统VA分析方法面临严峻挑战:现有算法要么需要依赖症状-病因关系的先验知识,要么需要大量标注数据进行模型训练。当新兴疾病出现且流行病学特征快速演变时,这些方法难以快速适应突发公共卫生事件的需求。特别是在COVID-19大流行期间,VA成为许多资源匮乏地区获取死因信息的唯一可行工具,但缺乏针对新兴疾病死亡率监测的算法指导方案。
为了突破这一技术瓶颈,加州大学圣克鲁兹分校的Yu Zhu和Zehang Richard Li在《Journal of the Royal Statistical Society Series A: Statistics in Society》发表了创新性研究。他们以巴西2021年COVID-19疑似死亡监测数据为案例,开发了分层潜在类别模型(Hierarchical Latent Class Models)的新框架,重点解决了两个核心问题:一是如何应对验证过程中的选择性偏倚(Verification Bias),二是如何提高小亚群死亡率估计的精确度。
研究团队发现,疫情期间具有验证死因的病例通常不是总体的随机样本,而是受到 logistical 限制和公共卫生优先级变化的影响。这种选择性验证可能导致症状-病因关系失真,类似于诊断测试文献中的验证偏倚问题。同时,监测不同人口亚群和随时间变化的疾病死亡率分数(Cause-Specific Mortality Fraction, CSMF)对传统静态模型提出了新挑战。
主要技术方法包括:建立基于反因果(Anticausal)结构的数据生成模型,使用分层潜在类别框架捕捉症状分布的异质性,引入结构化先验实现亚群间信息借用,以及开发高效的马尔可夫链蒙特卡洛(MCMC)采样算法进行后验推断。研究利用巴西411,491例死亡数据,包含14个二元症状指标,通过半合成数据验证模型性能。
研究首先建立了条件可忽略的验证机制假设,即验证概率仅取决于已知分层变量D和症状X,而与死因Y或其他未观察变量无关。这种假设等价于死因数据缺失随机(Missing at Random)条件。通过将变量区分为影响死因风险的因素(如人口统计学变量)和受死因影响的指标(如医学症状),模型能够更准确地估计亚群特异性CSMF。
研究引入个体层面潜在类别指标Zi∈{1,2,...,K},建立三层建模结构:给定性别、时间段和年龄组的分层变量D,条件分布p(Y|D)表示亚群CSMF,潜在类别指标Z捕捉症状分布异质性,症状X通过潜在类别间接依赖于死因Y。当K=1时,模型退化为常用的条件独立模型;当K足够大时,该框架能够灵活捕捉任何多元离散分布。
针对小亚群样本量不足的问题,研究提出了三种结构化先验规范:固定效应模型、独立随机效应模型和一阶随机游走(RW1)模型。这些先验通过性别、时间和年龄的加性分解,实现亚群间信息借用。随机游走模型特别适用于平滑相邻时间段和年龄组的CSMF估计,显著提高小样本情况下的估计稳定性。
模拟数据分析显示,在验证机制条件可忽略的情况下,结构化先验模型相比非结构化基线模型显著降低估计偏差。当样本量较小且未验证标签比例较高时,所有三种结构化模型在连续分级概率评分(CRPS)上都表现出改进。特别是在巴西COVID-19监测数据的应用中,随机游走模型对最后两个时间段的死亡率估计显示出明显的平滑效果。
通过潜在参数估计,研究揭示了症状分布在时间和人口维度上的变化规律。研究发现发热、咳嗽、呼吸困难、血氧饱和度降低、味觉嗅觉丧失等症状倾向于出现在相同的潜在症状谱中,这些模式与共享的病理机制相对应。不同人口亚群中这些潜在类别的权重分布存在显著差异,例如COVID-19相关死亡中,第五潜在类别在60岁以下男性死亡中权重较高,而第六潜在类别在60岁以上人群中更常见。
研究结论强调,分层潜在类别模型框架为部分验证的VA数据分析提供了有效工具,结构化先验的使用提高了亚群特异性CSMF估计的稳健性和可解释性。该方法成功避免了因参考死亡选择性抽样导致的偏倚,为突发公共卫生事件中的死亡率监测提供了重要方法学支持。
讨论部分指出,在实际应用中,只要按照明确的研究设计和协议选择验证病例,通过包含所有影响验证机制的相关因素,可以使缺失随机假设更加合理。研究还揭示了未来需要进一步探索的方向,包括处理非随机缺失指标、在潜在类别概率上引入结构化先验,以及建立更全面的因果结构框架来提高算法在不同人群间的泛化能力。
这项研究的创新之处在于将死亡率监测问题重新定义为分布偏移(Distribution Shift)视角下的算法泛化挑战,通过贝叶斯多层次建模技术,实现了在有限验证数据条件下对新兴疾病死亡率的准确估计。该方法不仅对COVID-19疫情防控具有直接应用价值,也为未来应对类似公共卫生危机提供了重要的技术储备和方法论指导。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号