编辑推荐:
为解决 MTBC 混合菌株感染检测难题,澳大利亚研究人员开展 TBtypeR 工具相关研究。结果显示,TBtypeR 检测灵敏度高且能分类亚谱系。推荐科研读者阅读,助你了解结核病研究新突破,探索疾病防控新方向。
结核病(Tuberculosis,TB),这个古老又顽固的疾病,多年来一直是全球公共卫生的重大挑战。在过去的二十年里,每年都有超过 100 万人因它失去生命,1000 万人被它折磨患病。它就像一个隐藏在暗处的 “杀手”,悄无声息地威胁着人们的健康。
按照传统认知,结核病通常是由单一的结核分枝杆菌复合群(Mycobacterium tuberculosis Complex,MTBC)菌株感染引起的。所以,在以往的结核病传播和发展的流行病学模型里,都没有把再次感染的情况考虑进去。但实际上,很多研究发现,在结核病流行的地区,有一部分患者是被两种或更多的 MTBC 菌株混合感染的。这些混合感染的患者治疗效果往往更差,可这个现象对全球和地区结核病流行病学的影响,却一直没有得到足够的研究。而且,因为现有的检测手段不够给力,混合感染常常被漏检。这不仅影响了对结核病传播事件的确认、传播动态的模拟,还让人们难以判断复发性结核病到底是复发还是再次感染,严重阻碍了结核病防控计划的有效实施。
为什么混合感染这么容易被忽视呢?这和结核分枝杆菌(Mycobacterium tuberculosis,Mtb)的特性有关。Mtb 的基因结构高度克隆化,突变频率低,也没有持续的水平基因转移,这使得不同菌株之间的遗传差异比其他细菌病原体小很多。目前在结核病高发地区常用的基因分型诊断方法,像限制性片段长度多态性(Restriction Fragment Length Polymorphism,RFLP)、间隔寡核苷酸(Spacer Oligonucleotide,spoligo)分型和分枝杆菌散在重复单位 - 可变数目串联重复序列(Mycobacterial Interspersed Repetitive-Unit-Variable Number of Tandem Repeats,MIRU-VNTR),这些方法使用的重复元件分辨率不够,除了那些差异很大的菌株,大多数混合感染都检测不出来。就算用全基因组测序(Whole Genome Sequencing,WGS)技术来进行菌株分型,现有的分析流程对低频菌株的基因分型灵敏度也不够。
为了解决这些难题,来自澳大利亚沃尔特和伊丽莎?霍尔医学研究所(The Walter and Eliza Hall Institute of Medical Research)以及墨尔本大学(University of Melbourne)等机构的研究人员,在《Communications Biology》期刊上发表了一篇名为 “TBtypeR: Sensitive detection and sublineage classification of Mycobacterium tuberculosis complex mixed-strain infections” 的论文。他们开发了一种全新的工具 TBtypeR,就像给结核病研究装上了一个 “透视镜”,能够更敏锐地检测出 MTBC 混合菌株感染,还能对菌株进行更细致的分类。
研究人员在这项研究中用到了几个关键技术方法。首先是基于系统发育单核苷酸多态性(Single Nucleotide Polymorphism,SNP)条形码,这个条形码包含了超过 10,000 个位点和 164 种 MTBC 系统发育型,能帮助精准识别菌株。其次,他们利用了一种基于二项分布的模型,通过比较 WGS 数据和条形码信息,来确定混合菌株的类型和比例。此外,还用到了迭代贪婪搜索算法,能在众多数据中快速找到最符合的混合菌株组合 。
下面来看看研究人员都得到了哪些有趣的结果吧。
TBtypeR 工具介绍
TBtypeR 是一个基于 R 语言开发的软件包,还配套了 Nextflow 管道。它用的 SNP 条形码涵盖了 10,903 个位点和 164 种 MTBC 系统发育型,这些数据来自多个研究。用户可以很方便地对这个条形码进行扩展或替换,这样就能应对新出现的菌株。输入数据可以是多样本的变异调用格式(Variant Call Format,VCF)文件。TBtypeR 会用迭代贪婪搜索算法,通过最大化观察到的 SNP 位点的联合二项似然性,来识别菌株混合物。它有三种不同的使用方式,普通的 R 包适合用户自定义操作;TBtypeNF 管道集成了数据预处理、比对、变异检测和质量控制等功能,使用起来更方便;FastTBtypeNF 工作流程则是结合了 Fastlin 和修改后的条形码,能快速生成等位基因计数,大大提高了检测速度 。
整体基准测试性能
研究人员对 TBtypeR 和其他几款常用工具,像 TBProfiler、Fastlin、QuantTB、MixInfect 和 SplitStrains,进行了一系列严格的基准测试。他们用了 “体外” 和 “计算机模拟” 的混合数据集,从马修斯相关系数(Mathew’s correlation coefficient,MCC)、次要菌株比例预测的平均绝对误差(Mean Absolute Error,MAE)以及每个样本的运行时间等方面来评估工具的性能。结果发现,TBtypeR 在七个总体基准测试类别中的六个表现最佳,综合排名第一,不过 Fastlin 在运行时间方面更胜一筹。而且,把其他基于条形码的工具的默认 SNP 条形码换成 TBtypeR 的条形码后,这些工具的整体性能都有所提升 。
计算机模拟混合物基准测试
研究人员在 “计算机模拟二重混合物(in silico duos)” 数据集上,深入探究了测序覆盖度、次要菌株比例和成对 SNP 距离对各个工具性能的影响。结果显示,TBtypeR、Fastlin 和 SplitStrains 的性能会随着测序覆盖度的增加而提高,而 QuantTB 和 TBProfiler 没什么明显趋势,MixInfect 则很奇怪,测序覆盖度增加,它的性能反而下降了。当组成菌株的基因相似时,混合菌株感染更难检测,因为可供判断的信息性 SNP 位点变少了。在这种情况下,TBtypeR 在条形码工具中表现最佳,而且在低次要菌株比例下,TBtypeR 的性能优势更明显,能可靠检测到低至 2.5% 的次要菌株比例,在 1% 的次要菌株比例下,它的 MCC 仍能达到 0.63,其他工具几乎和随机猜测没什么区别 。
比较亚谱系分配
研究人员用来自 CRyPTIC 联盟的 MTBC WGS 数据,对 TBtypeR、TBProfiler 和 Fastlin 的亚谱系分配能力进行了比较。在分析的 701 个样本中,690 个被这三个工具都预测为非混合样本,用于后续比较。TBProfiler 和 Fastlin 在亚谱系分配上的一致性高达 99.4%,因为它们用的是相同的底层条形码。TBtypeR 和 TBProfiler 相比,在 57.2% 的情况下结果一致,23.5% 的情况能给出更具体的亚谱系分配,不过也有 3.5% 的情况更不具体。这些差异主要是因为 TBtypeR 的 SNP 条形码包含了更多的谱系 2 菌株,而且使用了新的谱系命名 。
已发表数据集中低频混合物的检测增加
研究人员用 TBtypeR(FastTBtypeNF 工作流程)分析了从 Wang 等人的 50,000 个 Mtb 数据集里随机挑选的 5000 个 WGS 样本,这个数据集之前用 TBProfiler 筛查过混合感染。结果令人惊讶,TBtypeR 预测的混合菌株感染水平比之前高很多,有 6.1% 的样本被判定为混合感染,差不多是之前报道的 6 倍。而且,TBtypeR 检测出的大多数新增混合感染,次要菌株比例都低于 5%,这说明很多混合感染可能是以低频混合物的形式存在,以前的工具很难检测到 。
总的来说,TBtypeR 是目前检测 MTBC 混合菌株感染最灵敏、最准确的工具。它在几乎所有测试条件下,都比其他工具表现更出色,尤其是在检测低频混合感染方面,优势十分明显。而且它还能提供更具体的亚谱系分类,能检测出 5 种 MTBC 物种、12 个谱系的菌株。这项研究表明,基于条形码的工具在识别 MTBC 混合菌株感染方面,大多时候都比无条形码的工具表现好。TBtypeR 性能出色,一方面是因为它用的 SNP 条形码全面,另一方面是采用了基于二项分布的严格统计框架。不过研究也发现,TBtypeR 混合检测的灵敏度受测序深度、次要菌株比例、条形码 SNP 差异数量等因素影响,数据质量也可能有影响。所以在使用 TBtypeR 时,要根据检测的次要菌株比例,保证一定的测序深度。
TBtypeR 的出现,为结核病研究领域带来了新的希望。它能帮助研究人员更准确地从 WGS 数据中识别出含有低频混合感染的患者样本,这对于深入了解结核病的流行病学和临床意义至关重要。不过,要想全面检测和描述混合菌株感染,光有好的软件工具还不够,还需要谨慎选择采样方法。不同样本类型,比如痰液和肺组织切除样本,混合感染的检测率差异很大,而且样本培养可能会导致检测偏差。只有软件工具和采样方法双管齐下,才能更准确地反映结核病患者体内的真实感染情况,为结核病的诊断、治疗和传播防控提供更有力的支持,让我们在对抗结核病这场 “战争” 中,掌握更多的主动权。