micov:微生物组覆盖度分析新工具实现快速差异检测与基因组区域关联挖掘
《Communications Biology》:Calculating fast differential genome coverages among metagenomic sources using micov
【字体:
大
中
小
】
时间:2025年11月22日
来源:Communications Biology 5.1
编辑推荐:
本研究针对现有覆盖度分析工具无法检测样本组间基因组区域差异的局限,开发了micov工具,能够快速计算样本特异性覆盖度并进行差异比较。应用表明该工具可识别Prevotella copri中影响菌群结构的基因组区域、发现Lachnospiraceae与植物饮食的关联,并在低生物量样本中成功检测单拷贝病原体,为微生物组研究提供了新的分析维度。
在宏基因组学研究领域,覆盖度(即参考基因组被至少一条测序读段覆盖的比例)是评估数据质量的关键指标,直接影响从基因组组装到物种谱分析的准确性。然而,传统工具通常只在全基因组或样本汇总层面提供覆盖度统计,忽略了沿基因组长度方向以及不同样本组间的 informative variation。这种局限性使得研究人员难以捕捉菌株水平变异等生物学重要信息。
为突破这一技术瓶颈,加州大学圣地亚哥分校Knight团队开发了micov(Microbiome COVerage)这一创新性生物信息学工具。该工具能够快速计算每个样本在每个基因组上的覆盖度,并支持样本组间的差异比较,其核心优势体现在两个方面:一是能够进行样本类型特异性的累积覆盖度快速计算,二是可以检测沿基因组方向的差异覆盖度区域。这项研究成果于2025年11月20日正式发表在《Communications Biology》期刊上。
研究团队采用的技术方法主要包括:基于Polars和DuckDB的高效数据处理框架,支持SAM/BED3格式输入并利用Parquet格式进行索引存储;累积覆盖度可视化与蒙特卡洛模拟生成零模型;基因组区域分箱分析识别变异区域;结合PERMANOVA(Permutational Multivariate Analysis of Variance)和随机森林分类器进行统计学验证。分析数据来源于人类饮食与微生物组计划(THDMI)的1218例粪便宏基因组样本、EPEC(enteropathogenic Escherichia coli)污水加标实验以及克罗恩病患者组织样本。
micov实现累积与基于位置的覆盖度可视化
micov工具处理序列比对/图谱(SAM)文件,生成每个样本、每个基因组的覆盖区间。用户可通过累积覆盖度图和位置覆盖度图可视化指定基因组或基因组区域的样本覆盖情况。累积覆盖度图的思想源于天文学中的多重曝光摄影技术——单次观测中微弱物体的光子信号难以与背景噪声区分,但对同一物体的重复观测能在同一位置积累足够信号。将此概念延伸至宏基因组学,研究人员认为单个样本中匹配基因组的少量序列可能无法与背景噪声区分,但如果该基因组真实存在,那么在多个样本中积累应该会在基因组全长范围内产生随机积累模式。
位置图按样本元数据分层显示覆盖模式,缩放变体适应稀疏数据。micov还可将基因组区域分箱以识别样本组间的变异覆盖,这些功能有助于评估遗传元件分布并将覆盖模式与表型关联。
micov揭示菌株异质性,区分样本组
应用该框架,研究团队首先将micov应用于人类饮食与微生物组计划(THDMI)数据集,包含来自美国、英国和墨西哥的1218个可用人类粪便宏基因组样本。基于Prevotella copri(Segatella copri)的高流行率(所有样本都含有匹配P. copri的读段)和已知菌株变异,研究人员检测了micov分箱分析确定的前10个变异基因组区域。其中坐标351,299-354,812区域的"PC351"尤为突出。
PERMANOVA分析显示,仅PC351的存在/缺失对整体微生物组组成的影响比来源国更大。这一分析得到了同一样本16S rRNA数据的支持。重要的是,由于PC351包含蛋白质编码基因而非核糖体基因,16S rRNA数据无法直接提供该区域信息。出乎意料的是,在计算PERMANOVA时考虑PC351区域增加了抗生素史等变量的效应值。
随机森林分类器预测该区域存在/缺失的准确率很高,ROC曲线下面积(AUROC)为0.91。虽然预测个体国家的分类器AUROC更大(0.97),但P. copri在国家预测的特征重要性中排名第679位,表明结果特异性针对P. copri基因组的这一区域,而非该物种整体。
micov揭示遗传元件与表型特征的关联
接下来,研究人员检查了与植物消费多样性相关的基因组。与每周消费不同类型植物关联变异最大的基因组是一个未命名的Lachnospiraceae,位于坐标682,000-695,000区域的"L682"。该区域在高植物饮食(>30种不同植物)受试者中表现出更高的覆盖度差异。值得注意的是,该区域15个预测基因中有7个在多个注释系统中与未知功能相关。因此,micov的注释无关操作能够基于与样本类别的关联为未知功能基因生成假设。
micov助力低生物量环境中的分类检测
研究团队还将micov应用于低微生物生物量环境。首先,在圣地亚哥县和加州大学圣地亚哥分校校园的废水中加入已知基因组拷贝数的肠致病性大肠杆菌(EPEC),使用micov可检测到单基因组拷贝的加标。其次,检查克罗恩病患者手术切除的配对粘膜和脂肪组织样本中的微生物DNA,发现Mediterraneibacter gnavus(Ruminococcus gnavus)在受累粘膜中的覆盖度显著高于其他组织类型。
研究结论与意义
micov工具通过覆盖度分析方法弥补了现有SNP(Single-Nucleotide Polymorphism)聚焦菌株表征工具的不足,能够识别样本组间具有差异覆盖模式的基因组片段。研究不仅发现了比地理国家影响更大的P. copri区域,还在低生物量设置中证明了其检测灵敏度。这些应用展示了micov如何在所有数据汇总时无法看到的情况下,定量检测微生物群落组成与特定基因组区域之间的关联,识别特定基因组区域与表型特征之间的关联,并提高低生物量环境中目标类群的检测能力。
该研究开发的micov工具为宏基因组数据集解锁了新的"覆盖组学"分析层面,通过BSD-3许可的开源Python程序提供,可通过pip和conda安装,代码和安装说明可在https://github.com/biocore/micov获取。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号