《Nature Methods》:OrthoFinder: improved phylogenetic orthology inference with enhanced accuracy and scalability
编辑推荐:
本研究展示了OrthoFinder方法的重要进展。该研究扩展了OrthoFinder的高精度比较基因组学框架,显著提升了可扩展性和准确性。具体而言,研究人员证明增强的系统发育正交群(orthogroups)划分使正交群推断准确性相对提高了7%。研究进一步证明,
本研究展示了OrthoFinder方法的重要进展。该研究扩展了OrthoFinder的高精度比较基因组学框架,显著提升了可扩展性和准确性。具体而言,研究人员证明增强的系统发育正交群(orthogroups)划分使正交群推断准确性相对提高了7%。研究进一步证明,一种新的基因分配方法在不损害准确性的前提下大幅降低了总体运行时间和随机存取存储器(RAM)使用量。最新版本的OrthoFinder可通过GitHub获取。
直系同源(orthology)推断是现代生物学研究的基础,为研究地球生命的进化和多样性提供支撑,也为在不同物种间转移生物学知识提供框架。鉴于直系同源推断对生物学研究的核心重要性,该领域的方法学发展已超过40年。尽管自首批自动化方法出现以来,直系同源推断已取得实质性改进,但该领域方法开发仍面临重大挑战:如何在保持高准确性的同时实现大规模分析。
近年来,随着"达尔文生命之树"(The Darwin Tree of Life)和"地球生物基因组计划"(The Earth BioGenome Project)等基因组测序项目的推进,这一目标变得愈发紧迫。这些项目旨在对所有约200万种已知的真核生物进行参考基因组的测序、组装和注释。目前已有数千个基因组可用,未来预计将有数百万个基因组数据产生,因此迫切需要能够准确高效分析这些资源的自动化直系同源推断方法。
现有方法存在多个计算瓶颈。大多数推断方法的起点是全对全序列相似性搜索,其时间复杂度为物种数量n的二次方(n
2),随着物种数量增加,该方法难以适应大规模分析需求。因此,需要既能保持高准确性又能提升可扩展性的替代方法。
研究人员此前开发了OrthoFinder方法用于系统发育直系同源推断。OrthoFinder首先识别正交群,即每组物种中源自最近共同祖先单个基因的基因集合;然后为每个正交群推断基因树,并分析这些基因树以识别有根物种树;同时还鉴定完整基因树集合中的所有基因复制事件,并在物种树背景下分析这些信息,提供基因树水平和物种树水平的基因复制事件分析;最后分析这组系统发育信息以识别所有物种间的完整直系同源集合,并提供一系列比较基因组学统计信息。这一系统发育方法使比较基因组学从基于相似性评分的近似推断转向基于树系的系统发育关系。
在近期工作中,研究人员证明可以快速准确地将单个序列放入由OrthoFinder搜索产生的系统发育树和生物序列数据库中。该方法提供了一种快速的系统发育框架,使单个基因可以添加到现有直系同源推断分析中,而无需对现有物种进行计算昂贵的全对全重新分析。研究人员假设可以扩展这种单基因方法以支持物种集合的添加,从而在不损害准确性的前提下提高可扩展性。
本研究呈现了OrthoFinder的重大更新,显著增强了该方法的可扩展性。研究表明,可以以近线性时间快速搜索并将大量物种的序列集合分配到系统发育划分和结构化的生物序列数据库中,且这种加速搜索功能不会损害直系同源推断的准确性。此外,通过正交群的系统发育 interrogation 的进展,研究人员证明可以实现比以往任何竞争方法或先前版本OrthoFinder更高的可扩展性和准确性。
在正交群的系统发育划分方面,先前版本的OrthoFinder中,直系同源基于系统发育定义,而正交群仅基于马尔可夫聚类算法(MCL)对序列相似性搜索结果的聚类来定义。虽然该方法能校正种间分歧,但未能利用每个正交群内物种的系统发育关系,因此无法始终准确识别正交群的真实范围。该阶段的正交群划分错误会传播到后续所有分析步骤,导致直系同源推断的连带错误。
为解决此问题,研究人员开发并实施了正交群成员资格的系统发育重新评估。首先,如OrthoFinder v2一样进行MCL聚类,并为每个正交群推断基因树;然后OrthoFinder应用其高精度的基因树-物种树协调算法识别并映射每个基因树中的所有基因复制事件。根据定义,正交群不应包含源自"古老"复制(该复制早于物种树根节点)的基因;任何此类复制都表明这些基因源自多个独立基因。OrthoFinder在这些古老基因复制节点处-split所有基因树,从而创建一组新的经修订的系统发育定义的正交群。这些正交群对应于物种树的根节点;同时OrthoFinder还在物种树的每个祖先节点处进行系统发育划分分析,为物种树的每个节点创建正交群。这一新步骤-split错误融合的正交群,并修剪不符合正交群系统发育定义的序列。
为测试该方法对正交群推断准确性的影响,研究人员将该版本OrthoFinder与一组替代方法在OrthoBench专家 curated 参考正交群数据集上进行了比较。这种系统发育划分方法使OrthoFinder v3相比先前版本运行相同设置时准确性提高了5-7%。OrthoFinder v3具有最高的召回率、最低的缺失基因比例和最低的熵值。虽然OrthoFinder v3的精确度低于几种其他方法,但其召回率显著更高,因此缺失数据率更低。
在实现增强可扩展性而不损害准确性方面,研究人员进一步开发了OrthoFinder的新实现以提高方法的可扩展性。这是通过改编和进一步发展SHOOT谱算法实现的,该算法能够快速添加新物种到现有OrthoFinder分析中。这一新的可扩展OrthoFinder实现分为两个步骤:首先将输入物种集划分为两个不重叠的子集——"核心"子集(建议少于100个物种)和"分配"子集;第一步对核心子集进行常规OrthoFinder分析,创建系统发育划分和结构化的参考数据库;然后将分配子集的物种快速分配到参考数据库中的正确正交群,无论每个核心正交群中包含多少序列。分配步骤完成后,执行OrthoFinder快速的基于系统发育的正交群和直系同源推断步骤,生成扩展的有根物种树、基因树、系统发育确定的正交群、直系同源、基因复制事件和比较基因组学统计信息。
为测试该新工作流对可扩展性的影响,研究人员测量了各方法完成不同规模数据集分析所需的时间。OrthoFinder v3线性添加方法优于所有其他测试方法,是唯一能在7天截止期内完成1,024个物种直系同源推断的方法,完成该运行仅需128小时。SonicParanoid2(快速模式)和FastOMA是仅另外两种能在截止期内运行512个蛋白质组的方法。OrthoFinder v3在128-1024个物种范围内呈近线性运行时间趋势,比之前版本快8倍,代表了可扩展性的重要改进。在内存使用方面,OrthoFinder v3在超过128个物种的数据集上优于先前版本,随着物种数量增加,内存节省更加显著。例如,对于256个物种,v3线性方法相比v2 DendroBlast减少了3.4倍的RAM消耗。
为证明这种替代实现不会损害正交群推断准确性,线性物种添加方法(OF3_Linear)也在OrthoBench数据上进行了测试。OrthoFinder v3线性仅比非可扩展版本略逊,在一些指标上有轻微下降。然而,该可扩展版本比任何OrthoFinder v2实现和任何其他竞争方法都更准确,支持该加速实现在比较基因组学分析中的应用。
为进一步测试OrthoFinder v3对更多物种的可扩展性,研究人员从Ensembl下载了包含2,048和4,096个细菌物种的数据集。类似真核数据集,首先从物种树使用PDA创建64个物种的核心,然后分配剩余物种。OrthoFinder成功在50小时内完成2,048物种数据集,在13天15小时内完成4,096物种蛋白质组数据集,内存消耗为504 GB。FastOMA虽能完成2,048物种细菌数据集(耗时14天),但无法完成4,096物种数据集。
在直系同源推断准确性方面,研究人员使用Quest for Orthologs(QfO)基准测试服务评估了OrthoFinder v3多种实现的准确性。QfO是最广泛使用的直系同源基准测试服务,评估工具准确预测古菌、细菌和真核生物等不同分类群直系同源的能力。分析表明,OrthoFinder v3的高可扩展性工作流不会损害准确性。OrthoFinder v3在真核生物和细菌的物种树分歧测试中都位于帕累托前沿,证明其跨不同生命域执行准确直系同源推断的能力。唯一与OrthoFinder v3可扩展性相当的方法是FastOMA,但该方法的直系同源推断准确性显著较低。例如,虽然Robinson-Foulds距离(衡量真实与推断物种树之间的差异)在真核生物中OrthoFinder v3略逊于FastOMA(0.06对0.05),但OrthoFinder v3的召回率高80%。在酶分类测试中,OrthoFinder v3位于帕累托前沿,仅被依赖预计算数据库的工具在精确度上超越。在所有三个人工curated参考集中,OrthoFinder v3也位于帕累托前沿,在召回率方面表现尤为出色。
结论部分,研究指出地球上有超过6,000种哺乳动物、300,000种植物、5,000,000种昆虫以及数量未知的单细胞真核生物、细菌和古菌。推断这些生物生物序列的系统发育关系为研究进化和分子多样性奠定基础,并使我们能够在生物体之间理解和转移生物学信息。很可能在几十年内,地球上所有已知物种的实质性比例都将有代表性基因组,但能够在这种数据规模上进行分析的方法尚不存在。本研究呈现的OrthoFinder重大进展显著提高了方法的可扩展性和准确性。研究表明,可以以近线性时间快速将大量物种的基因集分配到系统发育划分和结构化的生物序列数据库中。研究还证明,使用系统发育划分改善正交群推断,提高了OrthoFinder的准确性,并扩大了其相对于比较方法的性能优势。OrthoFinder仍然是一个易于使用、快速、准确且完全基于系统发育的直系同源推断软件工具,也是少数提供广泛输出信息的工具之一,包括基因复制、基因树、序列比对和单拷贝直系同源序列,支持下游分析。
在分析中,OrthoFinder和FastOMA是唯一能够分析包含数千个基因组的数据集的直系同源推断工具。尽管实现不同,两种方法共享多个方法学特征和工作流原则:都依赖多序列比对和基因树推断从正交群识别直系同源;都使用物种树重叠方法识别基因复制事件;都在物种树的每个内部分支识别层次正交群。然而,两种方法在可扩展性方法和需求方面差异显著。OrthoFinder设计为从头运行,仅需用户提供一组蛋白质组;相比之下,FastOMA需要用户指定的物种树和包含预计算层次正交群的OMA数据库副本。在可扩展性和准确性方面,OrthoFinder在所有测试中均优于FastOMA,还提供了更广泛的输出,包括基因树和比较基因组学统计。
更新的OrthoFinder方法现在能够通过两步过程分析数千个物种。虽然该过程需要用户执行额外步骤,但所需输入仍然是感兴趣物种的蛋白质编码基因的氨基酸序列集。OrthoFinder的默认参数已针对速度、准确性和可扩展性进行优化,能够在常用计算资源上联合分析数千个物种。OrthoFinder还保留了专家用户的可定制性,算法中的中间步骤(如比对或树推断)可以根据用户需要替换为替代方法。目前OrthoFinder限于数千个物种,解决计算资源需求方面的挑战是未来发展的关键。这一升级为所有地球物种提供高精度系统发育直系同源推断的目标迈出了重要一步。