ViralBottleneck:基于多重方法整合的病毒传播瓶颈估计R包开发与应用研究

【字体: 时间:2025年09月21日 来源:Virus Evolution 4

编辑推荐:

  本研究针对病毒传播瓶颈估计方法分散、缺乏统一工具的问题,开发了集成六种主流算法的R包ViralBottleneck。通过模拟数据集验证发现,不同方法估计结果存在显著差异,其中β-二项分布法在真实场景中表现最优。该工具为量化病毒传播瓶颈提供了标准化分析框架,对预测病毒进化轨迹和制定防控策略具有重要意义。

  

病毒在宿主间传播时经历种群规模急剧减小的现象被称为传播瓶颈(Transmission Bottleneck),这一过程会显著降低病毒遗传多样性,影响变异株的传播与进化轨迹。急性病毒感染如流感和COVID-19对全球公共卫生构成持续威胁,世界卫生组织数据显示每年因流感死亡人数达25-50万,而截至2025年2月,SARS-CoV-2已导致超过7.77亿人感染和700万人死亡。理解病毒传播瓶颈的大小(即成功建立感染的新宿主病毒粒子数量)对于预测疾病动态和制定有效控制策略至关重要。

尽管高通量测序(HTS)技术的发展为研究病毒群体多样性提供了精细尺度数据,但现有瓶颈估计方法分散且缺乏统一工具。早期研究采用克隆桑格测序,近年来发展了包括Wright-Fisher模型、Kullback-Leibler(KL)散度法、存在-缺失法、二项分布及β-二项分布模型等多种方法,但这些方法尚未被整合到统一平台中,导致不同研究结果难以直接比较。

为此,格拉斯哥大学病毒研究中心的Bowen Zheng等人开发了ViralBottleneck——首个整合六种主流方法的R软件包。该研究通过SANTA-Sim模拟不同瓶颈大小场景下的病毒演化过程,系统评估了各方法在测序覆盖度和传播后世代数等关键参数下的表现。研究成果以开源形式发布于GitHub平台,相关论文发表在《Virus Evolution》期刊。

研究采用多层次技术路线:首先利用SANTA-Sim模拟流感病毒(H1N1/California株)在供体内的进化过程,参数设置包括1.5×10-5/位点的突变率、1.8/代的繁殖率和1.5×106的承载容量;随后通过采样模块模拟1-50个病毒序列的瓶颈事件;最后使用InSilicoSeq模拟深度测序过程并通过Bowtie2映射和DiversiTools进行变异调用。研究构建了理论数据集(Bottleneck-T)和真实模拟数据集(Bottleneck-R)两类数据,分别对应直接获取初始病毒粒子信息和经过生长进化后的测序数据。

主要研究结果

测序覆盖度对估计结果的影响

如图5所示,当测序覆盖度从10增加到10000时,大多数方法的估计值保持稳定,但95%置信区间(CI)宽度随覆盖度增加而减小。二项分布法和精确β-二项分布法的精度提升尤为明显,而近似β-二项分布法在较高覆盖度下表现出更高的准确性和更低变异性。存在-缺失法和KL方法在覆盖度10到100范围内估计值有所增加,但整体准确性低于其他方法。

传播后世代数的影响

如图6所示,随着传播后世代数(对应病毒在受体内进化时间)增加,所有方法的估计值均未出现显著变化。β-二项分布法在整个测试范围内保持最高准确性,表明该方法对病毒在受体内生长进化过程具有较好鲁棒性。

不同数据集下的方法比较

在理论数据集(Bottleneck-T)中(图7A),KL方法和存在-缺失法表现出最高准确性,其估计值随真实瓶颈大小同步变化。而近似β-二项分布法出现高估现象,精确β-二项分布法和二项分布法不仅经常高估瓶颈大小,其置信区间也仅偶尔与真实值重叠。

在真实模拟数据集(Bottleneck-R)中(图7B),对于较小瓶颈大小(如10和20),大多数方法能产生接近真实的估计值。但当瓶颈大小增加至50时,所有方法都表现出低估趋势,这一现象揭示了现有方法在较大瓶颈规模估计中存在的系统性偏差。

结论与展望

该研究开发的ViralBottleneck软件包首次实现了六种病毒传播瓶颈估计方法的统一集成,为比较不同方法性能提供了标准化平台。研究发现方法选择会显著影响估计结果:在理想理论场景中,KL方法和存在-缺失法表现最佳;而在更接近真实场景的模拟中,二项分布和β-二项分布方法更具优势。值得注意的是,二项分布法在覆盖度≥1000时会产生异常狭窄且不对称的置信区间,这是由于其假设变异频率在感染与采样期间保持不变所致,使用者需谨慎对待其区间估计结果。

研究同时揭示了方法应用的局限性:当前所有方法均基于供体-受体共享宿主内变异(iSNVs)的假设,未能考虑平行进化、测序错误和同塑性等可能造成的假阳性共享变异。此外,模拟过程中将流感病毒八个节段连接为单一序列,未考虑多节段病毒传播特性和节段间突变率差异,也未引入测序错误模型。

未来研究方向包括整合单倍型结构分析方法、选择压力识别框架和克隆变异利用方法等新兴技术。最终目标是建立统一分析框架,使研究者能根据数据类型选择最适合的估计方法,推动病毒传播动力学研究的标准化和可比较性。该工具对理解病毒进化机制、评估跨物种传播风险以及制定精准防控策略具有重要实践价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号