编辑推荐:
为解决难以推断S. aureus宿主物种和跨物种传播的问题,广东药科大学研究人员开展相关基因组研究。结果发现特定 k-mers,构建出精准模型。该研究为防控S. aureus跨物种传播提供新思路,强烈推荐科研读者阅读。
在微生物的世界里,有一种细菌格外引人关注,它就是金黄色葡萄球菌(Staphylococcus aureus,简称S. aureus )。这可不是个 “善茬”,它不仅能悄无声息地在人体和各种动物身上 “安营扎寨”,引发从轻微的皮肤感染到危及生命的菌血症等各种疾病,而且还能轻松跨越物种的界限,在不同宿主之间来回 “穿梭”。据统计,它在人类中的定植率高达 30 - 80%,在奶牛中为 77%,在猪中也有 43%,可以说是 “无处不在”。
以前的研究发现,金黄色葡萄球菌的菌株来源各不相同,有医院里的、社区中的,还有和牲畜相关的(livestock-associated S. aureus,LA-SA)。而且,越来越多的证据表明,动物身上的金黄色葡萄球菌能通过职业接触动物或者环境等多种途径传播给人类,这就让 LA-SA 和非 LA-SA 之间的界限变得越来越模糊。为了能够识别并预防金黄色葡萄球菌的跨物种传播,找到那些能区分动物和人类来源菌株的宿主特异性遗传变异和基因就显得尤为重要。
随着科技的发展,高通量测序的成本不断降低,全基因组测序(whole-genome sequencing,WGS)成为了研究细菌进化和溯源的有力工具,它能帮助科学家们发现细菌基因组中细微的变异。同时,全基因组关联研究(genome-wide association study,GWAS)也越来越多地被用于探索基因型和表型之间的关系,寻找与细菌表型相关的遗传变异。在众多用于 GWAS 分析的标记中,传统的基于单核苷酸多态性(single nucleotide polymorphisms,SNPs)的方法存在一定的局限性,它依赖单一参考基因组,只能识别部分基因组变异。而基于 k-mers(长度为 k 的 DNA 片段)的 GWAS 方法则有着诸多优势,它不依赖参考基因组,能捕捉各种遗传变异,还能评估由 SNP、插入 / 缺失和结构变异引起的变化,并且从原始基因组数据推断表型相关变异,减少潜在的易出错变异。因此,基于 k-mers 的 GWAS 方法在微生物和人类特异性生物标志物的识别中得到了广泛应用。
为了深入了解金黄色葡萄球菌的宿主特异性遗传元件,进而推断其宿主物种,区分动物和人类来源的菌株,广东药科大学公共卫生学院分子流行病学实验室的研究人员文银?杜(Wenyin Du)、思彤?陈(Sitong Chen)等人在《BMC Genomics》期刊上发表了题为 “Inferring Staphylococcus aureus host species and cross-species transmission from a genome-based model” 的论文。他们通过研究,发现了一组与宿主相关的关键 k-mers,构建了能够准确推断金黄色葡萄球菌宿主物种和跨物种传播的模型,这一成果为防控金黄色葡萄球菌的跨物种传播提供了新的思路和方法。
研究人员在这项研究中运用了多种关键技术方法。他们从 NCBI GenBank 数据库下载了 2002 年至 2021 年中国收集的金黄色葡萄球菌分离株的基因组组装数据,并对这些数据进行了严格的质量控制,利用 Kraken v.2.1.1 进行物种注释,CheckM v.1.0.13 评估基因组完整性和污染情况。通过将基因组序列上传到 PubMLST 数据库进行多位点序列分型,确定序列类型(sequence types,STs),并聚类成特定的克隆复合体(clonal complexes,CCs),使用 SpaTyper v.1.0 推断葡萄球菌蛋白 A(Staphylococcal protein A,spa)类型。运用 Snippy v.4.6.0、Gubbins v.2.3.5 和 RaxML v.7.0.4 等工具进行系统发育分析和贝叶斯进化分析。采用基于 k-mers 的无比对方法,使用 fsm-lite 识别独特的 k-mers,再用 bwa 将其比对到参考基因组进行注释,通过 UniProt 进行基因本体(Gene ontology,GO)注释。利用线性混合模型(linear mixed model,LMM)、Scoary、最小绝对收缩和选择算子回归(least absolute shrinkage and selection operator regression,LASSO)、极端梯度提升(extreme gradient boosting,XGBoost)等多种 GWAS 方法进行三阶段分析,最后使用随机森林(Random Forest,RF)进行预测和验证。
下面来看看研究人员都有哪些重要发现。
金黄色葡萄球菌分离株的特征
研究人员分析了 652 株金黄色葡萄球菌的基因组,其中包括 309 株猪源分离株和 343 株人源分离株。这些菌株主要来自中国的湖北、上海和山东等地。猪源分离株都取自鼻咽拭子,人源分离株则来自鼻腔拭子、肛门拭子和皮肤拭子。通过对基因组序列的分析,研究人员鉴定出了 56 种独特的 STs,分属于 31 个 CCs。猪源分离株中最常见的基因型是 CC9(ST9),而人源分离株中占主导的 CCs 是非 CC9 克隆,如 CC59(ST9)、CC398(ST398)和 CC239(ST239)。在 spa 分型方面,猪源分离株的主要 spa 类型是 t899,人源分离株则是 t437。
通过关联分析鉴定宿主相关基因型
研究人员发现,与牲畜相关的 CC9、ST9 和 ST3597 更容易在猪身上定植,而其他一些克隆,如 CC59、CC398、CC239 等则更倾向于在人体定植。特定 spa 类型在猪源和人源分离株中的比例也有显著差异,比如 t899 只在猪源分离株中出现。基于所有 56 种 ST 基因型的 RF 分类器预测宿主物种的分类准确率为 94.48%,基于单一 ST9 预测的准确率为 87.73%,这表明 ST9 与牲畜特异性有关。然而,基于核心 SNP 的系统发育树显示,猪源分离株和人源分离株在同一克隆中聚集,这说明传统的基因分型技术在揭示猪源和人源分离株之间细微的遗传差异方面能力有限。
通过 LMM 发现宿主相关 k-mers
研究人员基于 652 株金黄色葡萄球菌的基因组组装,鉴定出了 24,670,041 个 k-mers,经过筛选后,对 375,673 个 k-mers 进行 GWAS 分析。在发现阶段,使用单变量 LMM 初步筛选出 34,992 个显著的 k-mers,其中 5,747 个成功映射到 479 个已知功能的独特基因。基于这 5,747 个 k-mers 构建的简单模型分类准确率高达 99.08%,AUC 值为 1.00。排名前 100 的宿主相关 k-mers 主要与免疫调节、效应器传递系统、抗生素抗性和外酶有关。GO 注释显示,这些 k-mers 在细胞膜和细胞外区域显著富集,参与对含砷物质的响应等生物学过程,具有 DNA 结合等分子功能。
通过三种 GWAS 方法确认宿主相关 k-mers
为了简化初始模型,研究人员在确认阶段使用 Scoary、LASSO 和 XGBoost 三种 GWAS 方法进一步识别与宿主相关的一致性 k-mers。结果发现,Scoary 鉴定出 1,687 个,LASSO 鉴定出 40 个,XGBoost 鉴定出 104 个,三种方法共同鉴定出 20 个一致性宿主相关 k-mers。基于这 20 个 k-mers 预测因子的模型分类准确率达到 98.78%,AUC 值为 0.99。其中,前 5 个 k-mers 的重要性明显更高,基于这 5 个 k-mers 构建的更简单模型分类准确率为 98.17%,AUC 值为 0.99,这表明少量的 5 个 k-mers 预测因子就足以区分不同的宿主物种。而且,单个最重要的 k-mer(kmer_5162)分类准确率也高达 98.15%,包含它和 ST9 的双预测因子模型准确率同样为 98.15%,说明单个 k-mer 分类器就非常强大。猪源和人源分离株中前 5 个 k-mer 预测因子的比例存在显著差异,猪特异性 k-mers 与入侵猪的风险增加有关。
独立数据集对宿主相关 k-mers 的外部验证
研究人员使用一个独立数据集(40 株猪源和 40 株人源分离株)对上述结果进行外部验证。基于前 5 个 k-mers 的最终模型分类准确率为 97.5%,单个排名最高的 k-mer(kmer_5162)预测准确率为 83.8%,与原始数据集的结果相似,这进一步验证了研究结果的可靠性。
预测金黄色葡萄球菌的跨物种传播风险
研究人员用基于 20 个 k-mer 预测因子的 RF 分类器对来自职业接触猪的农场工人的 40 株未知来源的金黄色葡萄球菌进行宿主物种预测,结果显示 95.0% 的菌株被预测为猪源,基于前 5 个 k-mer 预测因子的 RF 分类器得到了相似的结果(97.5% 被预测为猪源),这表明 LA-SA 在职业接触牲畜的工人中存在很高的跨物种传播风险。猪特异性 k-mers 在猪源分离株中的流行率明显高于人源分离株,说明猪特异性元件的富集可能会增加跨物种传播的风险。
推断金黄色葡萄球菌的跨物种传播方向
研究人员发现,在职业接触牲畜的工人中同时存在与牲畜相关的 ST9 和与人相关的 ST59,但它们的跨物种传播方向尚不明确。通过贝叶斯推断估计进化历史,研究人员发现 ST9 人源分离株可能起源于猪源分离株,主要的宿主转换事件发生在 2007 - 2015 年;而 ST59 猪源分离株可能起源于人源分离株,宿主转换发生在 1987 年左右。这表明 ST9 可以从动物传播到人类,而 ST59 则可以从人类传播到动物。
在讨论部分,研究人员提到金黄色葡萄球菌的跨物种传播是一个复杂的多因素过程,涉及不同的宿主和细菌因素。他们探讨了三种不同的定植模型,发现基于 k-mers 的 GWAS 分析结果支持宿主相关基因组模型,即宿主相关遗传元件的富集可能会增加入侵特定宿主的风险。他们构建的基于 k-mers 的模型分类准确率很高,比之前预测大肠杆菌和表皮葡萄球菌致病性的模型准确率都要高,为识别与牲畜相关的分离株提供了准确的模型。此外,研究还明确了 ST9 和 ST59 的跨物种传播方向,为识别和预测金黄色葡萄球菌的跨物种传播风险和方向提供了新的思路。
不过,这项研究也存在一些局限性。样本数量受到 NCBI 数据库中现有公共基因组的限制;细菌 GWAS 中强大的种群结构可能导致潜在的假关联,尽管研究人员采取了多种方法来尽量减少这种影响,但仍无法完全消除;研究数据仅来自中国,未来需要跨国多宿主研究来进一步验证结果;不同环境下的国家数据可能存在潜在的异质性,虽然研究人员进行了一些调整,但地理来源的影响仍可能存在。
总的来说,这项研究通过三阶段的 GWAS 分析策略,成功识别出了一组与宿主相关的关键 k-mers。基于这些 k-mers 构建的模型,无论是包含前 5 个 k-mers 的最终模型,还是仅包含最重要 k-mer 的最简单模型,都能以 98% 的高准确率预测金黄色葡萄球菌的宿主来源。同时,研究还推断出了 ST9 和 ST59 的跨物种传播方向。这些发现为我们深入了解金黄色葡萄球菌与宿主相关的遗传特征提供了新的视角,也为推断其宿主物种和跨物种传播提供了准确的模型,在防控金黄色葡萄球菌跨物种传播方面具有重要的意义,为后续的研究和防控工作奠定了坚实的基础。