宏基因组覆盖度差异对丰度与多样性分析的干扰及标准化策略研究

【字体: 时间:2025年09月12日 来源:ISME Communications 6.1

编辑推荐:

  为解决宏基因组测序中覆盖度差异导致的丰度与多样性分析偏差问题,研究人员开展了基于Nonpareil覆盖度(Npc)的标准化方法研究。通过模拟和真实宏基因组数据分析,发现Npc标准化能显著提高特征丰度比较和多样性评估的准确性,为宏基因组比较研究提供了可靠的计算框架。

  

在微生物组学研究飞速发展的今天,高通量测序技术已成为探索微生物群落结构与功能的重要手段。然而,由于不同样本的生物学复杂性和测序深度的差异,宏基因组测序所捕获的多样性覆盖度(即样本中微生物基因组多样性被测序检测到的比例)往往存在显著差异。这种差异若不加以校正,会导致特征(如基因家族、分类单元)丰度比较和多样性评估产生严重偏差,进而得出误导性的生物学结论。尽管在扩增子测序研究中,通过标准化处理来校正覆盖度差异已成为常规操作,但在宏基因组研究中,这一问题却长期被忽视。

为了系统评估宏基因组覆盖度差异对分析结果的影响,并探索有效的校正方法,Borja Aldeguer-Riquelme、Luis M. Rodriguez-R和Konstantinos T. Konstantinidis在《ISME Communications》上发表了他们的最新研究成果。他们利用模拟和真实环境宏基因组数据,深入分析了Nonpareil覆盖度(Npc)在宏基因组比较中的作用,并提出了一套基于Npc的标准化流程,为宏基因组数据的稳健分析提供了重要指导。

研究人员主要采用了以下几种关键技术方法:首先,他们通过计算机模拟生成了不同物种丰富度(100 vs 1000种)、均匀度(高vs低)和微多样性(1 vs 10个基因组/物种)的合成宏基因组数据,并使用Mason软件模拟Illumina短读长序列。其次,利用Nonpareil软件估算真实和模拟宏基因组的多样性覆盖度(Npc),并通过读段映射(使用CoverM和BWA)计算基因组相对丰度(SD/GEQ)。此外,通过自定义Python和R脚本(如Npc_standardization.R)实现基于Npc的数据标准化和最大允许覆盖度差异(ΔNpcmax)计算。最后,采用统计检验(t检验)和多样性指数(Shannon、Simpson)评估标准化效果,并重新分析了公开的海洋和废水宏基因组数据(如Hawley等2017年和Zhang等2021年的数据集)进行验证。

研究结果主要包括以下几个方面:

相对丰度和丰富度估计受多样性覆盖度不均的影响

通过分析合成宏基因组数据,研究发现,当宏基因组的Npc较低时,许多低丰度基因组无法被检测到,导致基于分类单元(如目、属)聚合的相对丰度估计出现显著偏差。例如,在物种分布不均匀的合成宏基因组(Uneven1000sp)中,黄杆菌目(Flavobacteriales)的聚合相对丰度在Npc=0.9时比Npc=0.1时高出74%,而这种差异完全是由于覆盖度不同导致的检测灵敏度变化,而非真实的生物学差异。个体基因组的相对丰度在子样本中保持稳定,但被检测到的基因组数量随Npc增加而增加,从而影响了聚合丰度的估计。

Npc标准化可减轻覆盖度不均相关的误差

与基于测序数据量(读段数)的标准化方法相比,Npc标准化能更准确地反映样本间的真实多样性差异。例如,在比较含有100种和1000种物种的合成宏基因组时,Npc标准化始终正确显示后者具有更高的物种丰富度,而基于读段数的标准化在低测序量(如100万读段)下错误地得出前者多样性更高的结论。类似地,Shannon和Simpson多样性指数的比较也验证了Npc标准化的优越性。此外,差异丰度分析显示,Npc标准化能将准确率提高2.2%至12.6%,具体取决于比较的宏基因组类型。

Npc标准化改善自然环境宏基因组的聚合丰度估计

通过对海洋深度剖面宏基因组数据的分析,研究发现,在相同的Npc下标准化后,马里尼索马塔利斯目(Marinisomatales)的丰度峰值出现在150米深处,与完整高通量测序数据(平均Npc=0.8)一致。而未标准化的数据则因覆盖度差异显示出相反的趋势。这种一致性是由于标准化后更多成员基因组被检测到,而非个体基因组丰度变化所致。

已发表的微生物组研究结果可能不可靠

对Zhang等2021年废水处理厂抗生素耐药基因(ARG)研究的重新分析表明,由于 effluent 样本的Npc较高,其ARG多样性被高估,且部分ARG亚型的差异丰度结果在Npc标准化后发生显著变化。文献调研发现,99.5%的宏基因组比较研究忽略了覆盖度差异,凸显了这一问题的普遍性和严重性。

Npc标准化的需求取决于目标特征的相对丰度

通过计算最大允许Npc差异(ΔNpcmax),研究发现,特征的平均相对丰度与ΔNpcmax呈正相关(R2=0.55-0.57)。这意味着高丰度特征在覆盖度差异较大时仍能获得可靠估计,而低丰度特征则需要更严格的覆盖度匹配。这一发现为决定是否需要进行标准化提供了定量依据。

在讨论和结论部分,作者强调了Npc标准化在宏基因组比较研究中的重要性。他们指出,对于由多个成员组成的特征(如分类单元或基因家族),覆盖度差异会显著影响丰度估计和多样性比较。虽然测序高覆盖度(Npc≥0.9)的宏基因组是理想解决方案,但对于土壤等高多样性样本,这往往难以实现。因此,Npc标准化提供了一种可行的替代方案。作者提供的决策树和计算脚本(如Npc_standardization.R)能帮助研究人员评估覆盖度差异的影响,并执行标准化操作。此外,作者还提醒,Npc标准化主要适用于宏观多样性(macrodiversity)比较,而微观多样性(microdiversity)分析仍需基于测序深度标准化。

总之,这项研究系统揭示了宏基因组覆盖度差异对分析结果的潜在影响,并提出了有效的解决方案。通过推广Npc标准化方法,研究人员能够更准确地进行跨样本比较,从而提升微生物组研究的可靠性和可重复性。该成果不仅对微生物生态学领域具有重要理论意义,也为环境监测、临床微生物学和抗生素耐药性研究等应用领域提供了实用的分析指南。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号