宏基因组组装基因组提升口腔样本细菌读段去污染与变异检测准确性研究

《iScience》:Metagenome-assembled genomes enhance bacterial read decontamination and variant calling in oral samples

【字体: 时间:2025年11月01日 来源:iScience 4.1

编辑推荐:

  本研究针对唾液和颊拭子等非侵入性口腔样本在WGS基因分型中因口腔细菌污染导致准确性下降的问题,开发了基于HROM(含72,641个高质量细菌基因组)的MAGs增强去污染流程。通过PGPC队列的血液-口腔匹配样本验证,证明该方法相比传统eHOMD数据库能更有效去除细菌读段,显著提升SNP/Indel检测精度(尤其在高GC区域),并成功恢复HMCN2基因致病性变异。研究发现83种口腔细菌(含59种仅有MAGs的物种)基因组与82个ClinVar临床变异区域存在同源性,揭示了微生物污染对基因分型的潜在干扰,为DTC基因检测提供了更可靠的技术方案。

  
随着直接面向消费者(DTC)基因检测服务的普及,唾液和颊拭子等非侵入性口腔样本因其便捷性受到青睐。然而,这些样本中存在大量口腔细菌DNA污染,可能导致全基因组测序(WGS)数据中微生物读段错误比对到人类参考基因组,进而影响变异检测的准确性。虽然已有研究尝试通过添加细菌诱饵序列进行去污染,但传统方法依赖可培养细菌的分离基因组(如eHOMD数据库),难以覆盖口腔中大量未培养的微生物物种,去污染效果有限。
为解决这一问题,来自延世大学和哈佛大学的研究团队在《iScience》发表最新研究,开发了一种基于宏基因组组装基因组(MAGs)增强的口腔细菌读段去污染新方法。研究人员利用人类口腔微生物组参考数据库(HROM),该数据库包含72,641个高质量细菌基因组(3,426个物种),远超过传统eHOMD数据库(仅569个物种)的覆盖范围。通过加拿大个人基因组计划(PGPC)的20个血液-口腔匹配样本,研究团队系统评估了去污染效果及其对变异检测准确性的提升。
关键技术方法包括:使用Kraken2分类器构建人源基因组与HROM数据库的混合参考;通过DeepVariant进行变异检测;利用hap.py进行血液-口腔样本变异一致性分析;采用Illumina Canvas进行拷贝数变异(CNV)分析;通过MMseqs2比对鉴定细菌基因组与ClinVar临床变异区域的同源性。
宏基因组组装基因组增强策略揭示口腔样本中隐藏的细菌污染物
研究团队建立了基于Kraken2分类器的去污染流程,将测序读段比对至包含GRCh38人类基因组和HROM数据库的混合参考。结果显示,口腔样本中平均4.95%的读段为细菌来源,而血液样本仅0.38%。其中一个样本的细菌污染读段高达1.29亿(29.13%)。与eHOMD相比,HROM能检测到更多污染物,特别是在宿主DNA富集的甲基化样本中优势更明显(图1D),表明传统分离基因组数据库会遗漏大量污染物。
宏基因组组装基因组增强的细菌读段去污染改善变异检测
通过比较血液样本(金标准)与去污染后口腔样本的变异检测一致性,研究发现HROM去污染在12/16个样本中显著提升至少三种变异类型的检测性能。对于常见SNP(MAF≥0.05)以及常见和罕见Indel(MAF<0.05),去污染后精度和F1分数均得到改善(图2B-C)。与eHOMD相比,HROM在5/6的SNP检测指标上表现更优(图2E),且CNV检测的F1分数提升1.24%(图2G)。值得注意的是,仅含分离基因组的HROM版本在罕见Indel检测上显著逊于完整HROM,证明MAGs的补充价值。
基于人类口腔微生物组参考数据库的去污染特别改善难比对区域的变异检测
分析显示,去污染后在难比对区域恢复的真实变异数量是丢失变异的2.01倍,远高于非难比对区域的1.04%(图3A-D)。在高GC含量(>85%)的启动子区域,去污染使Indel检测精度全面提升(图3E-F)。这表明去污染对测序困难区域(如富含GC的区域)的变异检测改善尤为显著。
宏基因组组装基因组增强的去污染恢复有害错义突变
去污染恢复了大量具有临床意义的变异,其中30.64%被PolyPhen-2预测为"可能有害",12.6%为"很可能有害"(图4A)。典型案例如HMCN2基因的杂合突变(chr9:130429625 G>A),该突变在血液样本中清晰可辨,但在原始口腔样本中被细菌读段掩盖(图4C-E)。进一步分析发现,这些污染读段主要来源于Porphyromonas pasteri的吡啶核苷酸-二硫键氧化还原酶基因(图4F),证实特定细菌基因可能导致变异检测错误。
口腔细菌基因组区域与含临床相关变异的人类区域比对
研究还发现270个细菌基因组(83个物种)与82个ClinVar变异区域存在高度相似性(覆盖度≥50%,序列一致性≥80%),其中多数来自MAGs(图5A-B)。虽然69.51%的匹配区域为良性变异,但一些致病性变异(如生长激素缺乏症、Lynch综合征相关变异)在多个细菌物种中存在同源序列(图5C-E)。值得注意的是,59个匹配物种仅有MAGs而无分离基因组参考,包括Streptococcus mitis_AVPorphyromonas pasteri等,凸显了MAGs在识别潜在干扰源中的不可替代性。
研究结论强调,基于HROM的去污染策略能显著提升口腔样本WGS基因分型的准确性,特别是在传统方法易出错的困难区域。该研究首次系统证实MAGs在细菌污染去除中的优势,并揭示口腔微生物基因组与人类临床相关变异区域的同源性可能对基因分型产生干扰。随着DTC基因检测向WGS转型,这种去污染方法对确保临床级基因分型可靠性具有重要意义。研究局限性包括样本量较小和HROM数据库的地域偏向性,未来需在更广泛人群中验证并考虑病毒、真菌等污染物影响。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号