“比较频率主义方法和贝叶斯方法以识别病原体菌株入侵的驱动因素:以美国百日咳为例的时空案例研究”
《Infectious Disease Modelling》:"Comparing frequentist and Bayesian methods to identify drivers of pathogen strain invasion: A temporal case study of pertussis in the United States"
【字体:
大
中
小
】
时间:2025年11月19日
来源:Infectious Disease Modelling 2.5
编辑推荐:
本研究提出一种结合时间自相关随机效应的混合逻辑模型,用于分析百日咳PRN-菌株的入侵动力学。通过对比频率学派与贝叶斯学派方法,发现传统模型易低估假阳性率,而贝叶斯方法能更稳健地评估环境和社会因素(如温度、医疗资源密度)对菌株传播的影响。在2007-2017年美国数据中,温度被识别为显著影响PRN-菌株入侵速率的因素,但数据时空分辨率不足导致统计效力受限,提高采样频率可改善模型精度。
本研究探讨了在20世纪以来,新病原体的出现与人类活动之间的密切关系,包括全球旅行和环境利用等。同时,抗生素和疫苗的广泛使用也促进了新病原体变异体的进化和传播。然而,环境和社会人口学因素在病原体传播动态中的作用尚未被充分研究。本文提出了一种混合逻辑回归模型,这种模型结合了时间自相关的随机效应,以便更准确地反映病原体入侵过程的复杂性和时间依赖性。为了应对这一框架中的统计挑战,研究者比较了两种方法:一种是使用独立随机效应和频率学派推断的简化模型,另一种是通过贝叶斯推断来考虑时间自相关的完整模型。结果表明,虽然频率学派方法在纵向分析中被广泛使用,但它显著低估了假阳性关联的概率(即低估了第一类错误率),这可能导致错误的结论。相比之下,贝叶斯模型避免了这种偏差,提供了更为稳健的替代方案。
在实际应用中,研究团队使用了2007年至2017年间美国监测疫苗逃逸型百日咳杆菌株的数据集。在测试的八个协变量中,只有温度与菌株入侵率有显著关联。进一步的基于模拟的分析表明,当前数据集在检测这些关联方面统计功效有限。然而,研究结果表明,增加数据采集的时间分辨率可以显著提高模型检测有意义关联的能力,而不会增加监测成本。这表明,通过更细致的时间划分,可以在不增加额外负担的情况下提升对病原体传播动态的理解。
在引言部分,研究者指出,生态学中,入侵可以被定义为一个物种从其原生地区进入新地区的过程。一旦建立,该物种可能会对宿主环境产生毁灭性影响,常常导致本地物种的灭绝。人类活动,如运输、旅行和贸易,是全球非本地物种传播的主要驱动力,因此在世界范围内对生态入侵贡献巨大。类似地,流行病学中的入侵也可以以类似的方式理解,表现为病原体在其原有流行区域之外扩展,或能够感染新的宿主物种并高效传播。这一现象在20世纪和21世纪的许多疾病中都有体现,甚至更早。例如,20世纪的几次重大流感大流行,如西班牙流感(1918-1920年)、亚洲流感(1957-1958年)和香港流感(1968-1969年),以及HIV/AIDS和最近的新冠疫情(2019年)都展现了这一趋势。
另一个重要的入侵类型来自宿主内部的进化。病原体在宿主体内会受到不同的压力(如宿主的免疫防御),而流行病学参数可能随时间变化。由于大多数病原体的世代时间比宿主短,并且往往快速变异,因此,如果这些新菌株在宿主内部环境中更适应,它们可能会在宿主群体中传播。这种现象已被多个研究证实,例如Johnson等人(2023年)、Didelot等人(2016年)和Lythgoe等人(2021年)的研究。这些研究揭示了病原体在宿主内部进化的动态过程及其对传播的影响。
在流行病学领域,病原体的传播和替换过程经常受到抗病毒或抗菌治疗的选择压力影响。例如,大规模实施抗病毒治疗会促进耐药变异体的选择和传播。另一个塑造病原体进化的关键选择压力是疫苗的广泛使用。以乙型肝炎病毒为例,大规模实施乙型肝炎疫苗计划促进了疫苗逃逸变异体的出现。在养鸡业中,对马尔基病病毒使用多种疫苗,尤其是管理不善的情况下,有助于进化出克服疫苗诱导免疫的高致病性菌株。类似地,针对禽流感病毒的疫苗策略也影响了这种病原体的进化动态。在新冠疫情期间,多个SARS-CoV-2变异株表现出部分对疫苗诱导免疫的抗性,这进一步证明了疫苗在病原体进化中的作用。Gandon和Day(2008年)对疫苗与病原体进化之间的广泛关系进行了全面综述。
评估微生物菌株在宿主群体中的适应潜力需要从生态学的角度出发,因为这种视角对于描述病原体的流行病学适应性至关重要。病原体入侵的成功不仅取决于其相对于本地物种或之前流行的菌株的适应性优势,还受到多种环境和流行病学因素的影响,尤其是本地的传播环境。例如,入侵物种的传播速度可能会因生态竞争者的存在或缺失而加快或减缓。此外,气候条件对传播率有深远影响,如季节性流感、壶菌病和麻疹等病原体的传播已被证明受到气候条件的影响。因此,这些环境因素可能在塑造新兴菌株的流行病学轨迹中起到重要作用。
本研究的目标是开发一种新方法,用于研究新表型(或菌株、物种)入侵速度与各种环境和流行病学变量之间的关系。这一方法的首要动机源于分析百日咳杆菌(Bordetella pertussis)的近期出现,这些变异株不再产生一种名为pertactin(PRN)的表面蛋白。PRN缺失(PRN-)菌株的出现已被广泛记录,并且通常与针对PRN的无细胞疫苗使用相关。一项大规模研究分析了来自不同国家、采用不同疫苗策略的3,344株菌株,发现当使用针对PRN的无细胞疫苗时,PRN-菌株具有选择优势。因此,研究者使用了Lefrancq等人(2022年)发布的数据集,以及包含环境和人口统计数据的其他数据集。
为了纳入分析,研究者对协变量进行了转换,以考虑数据中的高异质性。假设这些协变量影响了菌株的局部传播,但这些菌株在美国或年复一年之间分布不均。因此,对协变量的平均值进行计算时,必须考虑这种高异质性。为此,新的调整协变量值使用了如下公式计算:对于每个状态和年份,基于协变量值和前一年的菌株比例,计算当前年份的调整值。这种转换有效地将协变量的数量翻倍,最终在分析中考虑了16个协变量。由于协变量数量较多,研究者选择分别使用单个变量进行建模,尽管这可能会引入多重共线性,但研究者承认,这种现象可能在涉及多个变量的模型中出现。此外,协变量被中心化和标准化,使用了所有分析年份的平均值和标准差,但不包括t=0(即2008年至2017年)。这种转换有助于模型的收敛,同时使协变量的影响更容易解释。
研究者采用频率学派方法分析了不同协变量与PRN-菌株比例(即对数几率)之间的关系。他们假设协变量的影响可以忽略不计,并使用一个广义线性模型(GLM)进行分析。然而,由于模型未考虑未解释的变异,研究者进一步引入了广义线性混合模型(GLMM),其中包含了随机效应,以更准确地捕捉这些变异。然而,研究者指出,这种简化模型在处理时间序列数据时存在局限性,因为随机效应的分布并非独立或同方差,而是在模型中被假设为独立且同分布的高斯变量。这导致模型的稳健性存在问题,特别是在存在异常值或异方差的情况下。因此,研究者采用了贝叶斯方法,通过马尔可夫链蒙特卡洛(MCMC)方法,对模型进行了更全面的分析。这种方法能够显式建模时间自相关性和混合成分,从而确保随机效应的独立性和同分布性。最终,研究者评估了该方法在类似Lefrancq等人(2022年)所报告的数据集规模和结构下的精度。
本研究在方法论上做出了几个创新性的贡献。首先,提出了一种将时间相关的随机效应纳入广义线性混合模型(GLMM)的建模框架,这种方法在流行病学入侵研究中尚未得到广泛应用。这有助于更准确地捕捉菌株替换过程的异质性和时间依赖性。其次,研究者展示了标准的GLMM方法在存在时间自相关性时可能产生误导性推断,尤其是低估了假阳性率(第一类错误)。通过将这些方法与完整的贝叶斯方法进行比较,研究者强调了直接在模型结构中纳入自相关性的优势。第三,研究者将这一框架应用于疫苗逃逸型百日咳杆菌的现实案例,并评估了增加监测数据时间分辨率的附加价值。这些方法论和实际应用的见解为改进病原体监测策略和优化微生物进化的流行病学模型提供了实用的指导。
在方法部分,研究者首先介绍了数据集的构建过程。他们筛选了Lefrancq等人(2022年)发表的补充材料中的百日咳杆菌菌株数据,基于三个标准:菌株必须在美国被鉴定;菌株的检测地点(州)必须已知;菌株必须在2007年或之后被分离。根据这些标准,最初保留了1,302株菌株,但观察到在最后两年(2018和2019年)PRN-菌株的比例下降,这可能是由于那两年的采样努力不足,或者是生物动态比简单的菌株替换更为复杂。因此,研究者将分析范围缩小到2007年至2017年间收集的1,195株菌株。
研究者选择了八个可能影响PRN-菌株传播的协变量,包括人口密度、平均家庭规模、中位年龄、平均年温度、医院和医生密度、中位家庭收入以及疫苗覆盖率。所有变量都在州一级评估。表1和图3总结了这些协变量。例如,人口密度和家庭规模通常与更高的接触率相关,因此可能增加空气传播病原体的传播。在明尼苏达州和塞内加尔,更高的人口密度与病原体的早期引入、本地灭绝风险降低以及从城市中心向较小社区的扩散有关。更大的家庭规模也与明尼苏达州和荷兰的百日咳发病率或检测率增加相关,而家庭拥挤则被证明在历史上影响了百日咳的周期性变化。温度对多种空气传播病原体的传播有重要影响,包括麻疹和SARS-CoV-2。对于百日咳,发病率通常在较温暖的月份较高,但季节性可能因爆发而异。长期的气候趋势也可能影响百日咳的传播。医疗资源的可及性,如医院和医生的密度,与百日咳的检测率相关,因此可能影响病例的报告。虽然这些因素可能不会直接影响传播,但它们会影响病原体动态在数据中的反映。社会经济状况也可能影响检测和传播。较低的收入与加利福尼亚州的结核病率增加相关,而荷兰的百日咳检测率与较高的收入有关。然而,佛罗里达州的百日咳风险却在高收入地区较高,这表明存在复杂的上下文特定模式。疫苗是百日咳传播动态的关键驱动因素,其使用已导致观察到的发病率年龄变化。无细胞百日咳疫苗通常包含部分抗原,包括PRN。广泛使用包含PRN的疫苗被认为是PRN-菌株出现的主要因素。因此,疫苗覆盖率的变化可能会影响这些新型变异体的入侵动态。
在方法部分,研究者介绍了他们使用的模型,即经典的SIR模型,该模型描述了个体在易感(S)、感染(I)和康复(R)三个部分之间的流动。研究者考虑了最简单的情况,即没有死亡或出生,且两种菌株的康复率相同。感染部分被分为两个互斥的子部分,分别代表感染PRN-和PRN+菌株的个体。假设人口是均匀混合的,菌株的传播动态使用普通微分方程建模。随后,研究者推导了感染PRN-菌株的个体数量随时间变化的公式,并引入了随机效应以捕捉未解释的变异。研究者通过两种不同的方式对时间变量进行了处理,以测试不同解释对模型结果的影响。
在分析中,研究者发现,温度是解释PRN-菌株出现模式的最佳协变量(在16个协变量中)。这一因素反映了样本所在州的平均温度,与PRN-菌株的传播显著相关。其他表现优于零模型的模型包括医院密度和医生密度的变化,但这些结果并不稳健,因为数据中的残差误差导致第一类错误率显著增加。其他模型在使用标准的α阈值0.05时无法比零模型更好地解释数据。尽管这些结果看似有趣,但它们并不稳健,因为数据中的残差误差导致第一类错误率显著增加。
研究者随后采用贝叶斯方法对模型进行了改进。通过显式建模残差误差,贝叶斯方法避免了时间累积误差的问题。在17个模型中,温度仍然是最佳预测因子,无论使用哪种方式估计协变量的值。然而,当使用k′ = t时,温度模型的优势更为明显,这表明在这种情况下,使用当前年份的协变量值可能更准确。所有其他模型在两种情况下都表现得不如温度模型。
研究者指出,频率学派和贝叶斯方法之间的差异可能对研究人员和公共卫生政策制定者产生深远影响。频率学派方法虽然在某些情况下提供了显著的关联,但其结果可能被未考虑的时间自相关性所扭曲。相比之下,贝叶斯方法通过显式建模这种结构,提供了更保守的估计和更准确的不确定性区间,更好地反映了数据的局限性。在实际应用中,这意味着在解释统计显著结果时需要谨慎,特别是在使用可能未充分指定的频率学派模型时。贝叶斯推断虽然在外观上可能显得不够果断,但能够提供更现实的不确定性表示,这对于指导流行病学监测或干预策略至关重要。
研究者还指出,尽管他们承认所选的协变量可能并不全部影响PRN-菌株的入侵速度,但未能检测到效应并不意味着效应不存在。为此,他们进行了精度分析。研究结果表明,数据集的精度受到可用时间点数量(每年一个,共11年)和每年样本量较小的限制。这两个因素主要导致贝叶斯分析的精度较低。研究者发现,通过使用更狭窄的时间记录周期,可以在不增加额外采样努力的情况下提高精度。虽然这会减少每个时间点的菌株数量,但时间分辨率的提高可以很大程度上弥补这一损失。这使得能够探索入侵速度的季节性变化,并提供更精确的协变量值估计,前提是相关变量的亚年度数据可用。
另一个挑战是协变量数据的时间和空间分辨率。一些纳入分析的协变量并未以与菌株数据相同的时间步长进行估计。例如,疫苗覆盖率被假设为每年恒定,因为年度估计值不可用。其他协变量在每个州的时间点被假设为均匀分布,而实际上它们可能在州内(如人口密度在城市和农村地区差异显著)或一年内(如温度在冬季和夏季变化显著)表现出高度异质性。换句话说,数据的空间和时间离散化限制了协变量解释PRN-菌株入侵模式的能力。此外,由于百日咳杆菌菌株采样努力在州内和年度间存在高度异质性,研究者纳入分析的转换协变量可能估计得不够准确。
这些采样限制不仅是一个不确定性来源,还可能引入系统性偏差。例如,如果某些州或年份的采样努力较高,而这些州或年份的协变量值也相似,模型可能无法识别这种更快的菌株比例增加是否由该协变量引起,反而可能夸大选择系数的估计值。将协变量数据聚合到州一级还引入了一种生态偏差,掩盖了可能更相关的更小尺度的变异。总体而言,这些限制可能导致效应偏差和过度的不确定性,这正是研究者采用贝叶斯分析所提供的保守估计的重要原因。
研究者总结道,尽管他们的建模方法最初是在疫苗逃逸型百日咳杆菌菌株的动态背景下开发的,但其应用范围远不止流行病学领域。这种方法可以用于研究一系列入侵过程,包括生态学中新引入物种逐渐取代本地物种的过程。通过在贝叶斯框架中纳入时间自相关性,研究者的方法提供了一种比传统GLM和GLMM方法更稳健的替代方案,特别是在数据具有时间依赖结构的情况下。然而,任何推断的准确性都与可用数据的数量、分辨率和质量密切相关,无论是响应变量还是协变量。因此,这项研究不仅推动了流行病学入侵研究中的统计建模方法,还强调了改进数据收集策略以充分发挥这些方法在实际应用中的潜力的重要性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号