编辑推荐:
随着基因组测序数据爆发式增长,数据冗余和质量不均问题凸显,现有基因组采样方法存在局限。研究人员开展 MPS-Sampling(多蛋白相似性采样)研究,结果显示该方法能高效选择代表性基因组,为相关研究提供有力支持。
在生命科学的发展历程中,基因组测序技术的进步宛如一场革命,为我们打开了探索生命奥秘的新大门。大量的基因组数据如潮水般涌来,这些数据蕴含着无数关于生命遗传信息的宝藏。然而,随着数据量的急剧增加,一系列棘手的问题也接踵而至。一方面,基因组数据存在严重的冗余现象,许多相似甚至相同的基因组序列被重复测序,这不仅浪费了宝贵的科研资源,还增加了数据分析的复杂性。另一方面,数据质量参差不齐,大部分已发布的基因组实际上是粗略的草图组装,这使得基于这些数据进行的深入研究面临诸多挑战。同时,不同物种的基因组在数据集中的分布极不均衡,少数分类群的基因组过度代表,而许多其他物种的基因组却鲜见踪影,这背后反映的是社会经济等多方面因素的影响 。
在这样的背景下,从海量的基因组数据中挑选出具有代表性的子集成为几乎所有基因组研究的关键步骤。但目前常用的采样方法都存在各自的缺陷。基于分类学的方法虽然应用简便,但许多基因组的分类学信息不完整甚至缺失,这会导致重要的研究空白,而且该方法对分类学错误敏感,还受历史遗留问题的制约。基于系统发育的方法依赖系统发育树提供的信息进行基因组分组,然而,构建高质量的系统发育树并非易事,随着序列数量和差异的增加,树的质量会下降,影响基因组聚类和采样的可靠性,并且这类方法通常包含人工整理步骤,需要分类学信息,难以处理大规模的系统发育树。基于基因组相似性的方法,如计算总体基因组相关性指数(OGRI),虽然理论上与分类学和系统发育无关,但存在二次复杂性问题,需要对基因组进行详尽的两两比较,且随着基因组进化差异的增大,其准确性会大幅下降 。此外,一些国际联盟提供的现成代表性基因组数据集,用户无法控制其采样密度、冗余度和数据更新,还往往不包含未描述生物的基因组。
为了攻克这些难题,法国 Université Claude Bernard Lyon 1 等机构的研究人员展开了深入研究,开发出了 MPS-Sampling(多蛋白相似性采样)这一创新方法。通过一系列严谨的实验和分析,研究人员发现 MPS-Sampling 能够在可接受的计算时间内,从大型基因组数据集中高效地选择出可靠且具有代表性的基因组样本。这一成果对于推动基因组学研究的发展具有重要意义,它为后续的各类基因组相关研究提供了更优质、更具代表性的数据基础,有助于科学家更准确地探索生命的遗传奥秘,相关研究成果发表在《BMC Bioinformatics》杂志上。
研究人员在开展此项研究时,运用了多种关键技术方法。首先,MPS-Sampling 以同源单拷贝蛋白序列家族作为输入数据。接着,使用 MMseqs2 套件中的 Linclust 算法对每个蛋白家族的序列进行聚类,形成 Lin - 聚类(Lin-clusters)。然后,根据基因组所属的 Lin - 聚类标签向量,将相似的基因组聚为基本基因组群(EGG) 。之后,通过 Dice 指数计算 EGG 之间的相似性,并基于此进行完全连接的层次聚类,构建 MPS - 聚类(MPS-clusters) 。最后,按照严格的优先级规则在每个 MPS - 聚类中选择一个代表性基因组,即 MPS - 代表(MPS-representative) 。
下面来详细看看研究的结果:
- 计算时间和内存使用:研究人员在特定服务器上对 MPS-Sampling 进行了测试。结果表明,该方法的计算时间主要取决于数据集的大小,即基因组数量和蛋白家族数量。在处理包含 178,203 个基因组和 48 个蛋白家族的细菌数据集时,若不使用预连接步骤,生成一个样本需要 1 小时,而后续额外生成样本的时间大幅缩短,11 次运行总共耗时 1 小时 41 分钟,内存使用量为 112GB。使用预连接步骤后,计算时间显著减少至 17 分钟。与其他工具相比,MPS-Sampling(不使用预连接)比 Treemmer 快 287 倍,Treemmer 生成一个样本需要 360 小时,生成 11 个样本则需要 1,992 小时。
- MPS-Sampling 样本的分类和系统发育相关性:将 MPS-Sampling 应用于细菌数据集后发现,参数 Δ 的值越低,采样密度越低。例如,当 Δ = 1 时,选择了 57,332 个 MPS - 代表,占总基因组数的 32.17%;当 Δ = 0.4 时,为 3,474 个(1.95%);当 Δ = 0.05 时,仅有 527 个(0.30%) 。对样本的系统发育和分类多样性监测显示,随着采样过程的进行,系统发育多样性线性增加,从整个细菌数据集的 0.0159 提升到 Δ = 0.05 时的 0.5638 ,这表明被丢弃的基因组在系统发育上确实是最冗余的,MPS-Sampling 成功捕捉到了细菌数据集的系统发育多样性。从分类学角度来看,降低采样密度会使物种内的基因组数量、属内的物种数量、科内的属数量等逐步减少,但即使样本量很小,大多数的类和门仍能保留。在 GTDB 数据集上也观察到了类似趋势,不过由于 GTDB 数据集包含更多蛋白家族,相同 Δ 值下其 MPS - 代表的比例更大。
- MPS-Sampling、Treemmer 和 TaxSampler 的比较:对比 MPS-Sampling、Treemmer 和 TaxSampler 发现,MPS-Sampling 和 Treemmer 能够提供不同大小的样本,而 TaxSampler 受分类学水平限制。在样本大小相同的情况下,MPS-Sampling 提供的样本具有更高的系统发育多样性。例如,当 Δ = 1 时,MPS-Sampling 样本的系统发育多样性略高于 Treemmer(0.0489 对 0.0442);当 Δ = 0.6 时,前者是后者的两倍(0.2056 对 0.1046) 。TaxSampler 在物种或属水平采样时,样本的系统发育多样性远低于 MPS-Sampling。此外,MPS-Sampling 在去除分类群内基因组冗余方面比另外两种工具更高效。对三个主要细菌科的深入分析也表明,MPS-Sampling 能根据数据的冗余程度调整采样密度,提供更符合数据系统发育多样性的样本。
在研究结论和讨论部分,MPS-Sampling 作为一种基于序列相似性的创新方法,能够快速、可扩展且可靠地从大型基因组数据集中选择代表性基因组集。它通过两步基因组聚类和矩阵计算,在可接受的计算时间内处理大规模基因组数据集,并且包含的预连接可选步骤能显著减少计算时间。该方法使用 Dice 指数计算 EGG 之间的相似性,并通过完全连接的层次聚类控制每个 MPS - 聚类的内在多样性,具有很高的特异性和良好的敏感性。虽然可能存在对大群体过度采样的风险,但避免了代表性的损失。MPS-Sampling 可应用于任何类型的基因组,只要能组装同源蛋白家族即可。不过,它对数据质量有一定要求,虽然对蛋白家族组装错误和缺失数据相对稳健,但数据中缺失序列过多会影响分析的相关性。同时,高水平的水平基因转移(HGT)或蛋白家族组装的系统性错误也会影响采样过程。总体而言,MPS-Sampling 为从大型数据库中选择代表性基因组样本提供了一种全新且有效的方法,在细菌基因组数据集的去重处理方面表现卓越,能在分类学和系统发育学上保留原始数据集的大部分进化多样性,即使在分类学信息不准确的情况下也能保持一致性,为生命科学领域的基因组研究开辟了新的道路,具有广阔的应用前景。