编辑推荐:
本文介绍了 ROADIES(Reference - free, Orthology - free, Annotation - free, Discordance - aware Estimation of Species Trees)这一工具。它能从原始基因组组装直接推断物种树,具有免参考、免注释等特点,在多数据集测试中表现出色,为物种树推断带来新突破。
ROADIES 的研究背景
随着基因组测序技术和组装方法的快速发展,大量不同物种的精确完整基因组组装不断涌现。这些基因组数据有望解决物种进化关系(物种树)和基因进化历史(基因树)等问题。物种树在比较和进化研究中至关重要,但目前从基因组组装推断物种树的流程复杂且计算需求高,对于非专家而言使用难度大。尽管现代系统发育流程采用考虑基因树不一致性的方法,但传统流程存在诸多问题,如基因注释和直系同源推断计算缓慢、依赖专家经验,多序列比对(m - WGA)计算量大且需高质量引导树等。目前虽有部分自动化尝试,但完全自动化工具存在局限性,如基于距离的方法准确性、可靠性和可解释性不足,基于原始测序读数的方法准确性欠佳且依赖外部数据库。
ROADIES 的核心特点
ROADIES 是一种全新的自动化工具,旨在从原始基因组组装中准确、可靠、快速且可扩展地推断物种树。它具有以下关键特性:
- 免参考(Reference - free):不依赖参考物种、基因集或基因组注释,避免了参考偏差。
- 免直系同源推断(Orthology - free):利用多拷贝基因树,无需在基因树推断前确定直系同源关系。这里的 “基因” 指假定的合并基因(c - genes),即理想情况下无重组的短基因组区域。
- 免注释(Annotation - free):无需进行注释或 m - WGA,而是从输入基因组中随机采样固定长度的位点生成基因树,避免了注释质量差的问题,可按需采样直至达到所需置信水平,还能为依赖 m - WGA 的注释流程生成引导树。
- 考虑不一致性(Discordance - aware):使用先进且统计一致的方法将基因树合并为物种树。
ROADIES 的工作流程
ROADIES 是一个完全自动化的流程,可从原始基因组组装生成物种树和基因树。它与传统基于不一致性感知的合并分析有两点不同:
- 多拷贝基因树的使用:许多传统分析局限于单拷贝基因树,而 ROADIES 允许使用多拷贝基因树,通过 ASTRAL - Pro3 进行物种树推断,无需区分直系同源和旁系同源基因。
- 随机采样策略:传统流程依赖蛋白质编码基因注释或 m - WGA,而 ROADIES 从不同输入基因组中随机采样序列并屏蔽高度重复区域。这种方法避免了注释的计算成本和错误,消除了参考偏差,能纳入更符合序列进化模型假设的基因间区域,且无需 m - WGA 和起始引导树。
ROADIES 是一种迭代方法,提供三种操作模式:准确(默认)、平衡和快速。所有模式都会不断增加基因数量进行迭代,直到获得稳定且置信度高的树。在准确模式下,每次迭代从随机选择的输入基因组中采样 250 个长度为 500bp 的基因,使用 LASTZ 找到同源区域,然后用 PASTA 进行多序列比对(MSA),再用 RAxML - NG 推断多拷贝基因树。平衡模式使用 FastTree 进行更快的基因树推断,快速模式则省去 MSA 步骤,使用 MashTree 生成基因树。最后,所有模式都使用 ASTRAL - Pro3 将多拷贝基因树合并为物种树,并报告分支长度和局部后验概率(localPP)置信分数。
ROADIES 的性能评估
- 胎盘哺乳动物数据集:使用 240 种胎盘哺乳动物的基因组组装评估 ROADIES 准确模式的性能,以 Zoonomia 联盟提供的树拓扑作为参考。结果显示,ROADIES 推断的系统发育与 Zoonomia 系统发育基本一致,物种水平的标准化罗宾逊 - 富尔兹距离(normRF)为 0.038,所有物种都正确分配到其系统发育目,但在目的排列上存在一些小差异。在历史上有争议的分支上,ROADIES 支持 Atlantogenata 假说,与 Zoonomia 和主流科学共识一致;在 Sirenia 和 Scandentia 的位置上,ROADIES 与 Zoonomia 树拓扑一致;在 Laurasiatheria 系统发育中,ROADIES 与 Zoonomia 树在 Perissodactyla 和 Cetartiodactyla 的位置上存在差异,这可能是由于不完全谱系分选导致的基因树不一致;在 Macroscelidea 和 Tubulidentata 的位置上,ROADIES 与 Zoonomia 树不同,且置信度较低,这一区域的系统发育仍有待进一步研究。
- 果蝇数据集:在 100 种果蝇基因组数据集上,ROADIES 在 1105 分钟(18 小时 25 分钟)内收敛,生成 1627 个基因树,最终系统发育树有 94% 的高支持分支。ROADIES 准确识别了所有组级关系,与参考树在组级的 normRF 为 0,但在物种水平上存在一些差异,如在 Drosophila mauritiana、Drosophila simulans、Drosophila sechellia 等物种的关系推断上与参考树不同,这反映了高基因树不一致性。
- 鸟类数据集:对于 363 种鸟类基因组数据集,ROADIES 在单个 16 核亚马逊网络服务(AWS)EC2 实例上估计需要 2811 实例小时(117 天)才能收敛,最终物种树有 99% 的高支持节点,需要 7 次迭代和 62413 个基因树。ROADIES 的系统发育与参考树在物种水平上的 normRF 为 0.027,在一些有争议的分支上与参考树存在差异,如在 Tinamiformes、Rheiformes、Columbimorphae、Phoenicopterimorphae 等目的位置上,但这些差异在以往研究中也存在争议,部分研究支持 ROADIES 的发现。
- 酵母数据集:在 332 种酿酒酵母数据集上,ROADIES 在 64 核 AWS EC2 实例上耗时约 3.52 天生成最终物种树,normRF 为 0.170,有 94.52% 的高支持节点。ROADIES 能够准确捕获物种在各自进化枝内的分组关系,但在 Sporopachydermia、Alloascoideaceae 和 CUG - Ser1 等进化枝的位置上与参考树存在差异,这些差异反映了该区域系统发育的不确定性。
- 多倍体数据集:使用 11 种竹子物种的数据集测试 ROADIES 在多倍体存在情况下的准确性。这些竹子基因组经历了复杂的杂交、多倍化和基因渗入过程,具有不同的倍性水平。ROADIES 在该数据集上两次迭代就收敛,推断出 263 个基因树,运行时间为 51 分钟,得到的物种树与参考树拓扑完全匹配,所有分支支持度高,表明 ROADIES 基于多拷贝基因树的推断方法在复杂多倍体场景下具有稳健性。
ROADIES 与其他方法的比较
将 ROADIES 与 MashTree、Read2Tree 和基于 BUSCO 基因的管道等几种先进的物种树估计管道进行比较。在 48 种鸟类数据集上的评估显示,MashTree 是最快的方法,但准确性最低,仅恢复了参考系统发育树约三分之一的分支(normRF:0.622);Read2Tree 是一种半自动化方法,依赖原始测序读数和外部数据库中的直系同源基因标记,准确性受测序覆盖度影响,在我们的实验中,随着参考物种数量从 3 增加到 7,normRF 仅从 0.711 略微提高到 0.666;基于 BUSCO 基因的管道依赖参考数据库,在鸟类数据集中可用的 BUSCO 基因数量有限,ROADIES 在准确性和运行时间上均优于这些管道,尤其在解决 Neoaves 内的关系方面表现更好。
ROADIES 的灵活性和可扩展性
ROADIES 提供了平衡和快速两种模式,以满足不同用户的需求。在哺乳动物、果蝇和鸟类数据集上的评估显示,平衡模式和快速模式在速度上有明显提升,但在准确性上有所下降。例如,在哺乳动物数据集中,平衡模式使用 3738 个基因树,在 160 小时 55 分钟(6.7 天)内收敛,有 96% 的高支持节点,与参考树在顺序水平上的 normRF 为 0.05;快速模式使用 14929 个基因树,在 98 小时 21 分钟(4.1 天)内收敛,有 97% 的高支持节点,但与参考树在顺序水平上的 normRF 为 0.33。这些模式在某些资源受限的应用中可能是合适的。
ROADIES 设计用于在高性能计算环境中支持大规模系统发育分析,利用 Snakemake 进行高效并行化。在 100 种果蝇数据集的准确模式下测试其扩展性,随着核心数量从 8 增加到 128,运行时间减少了 7.3 倍,实现了 57.7% 的扩展效率;运行时间也随着输入物种数量的增加而合理增加,表明其具有良好的扩展性。此外,通过对果蝇数据集进行四次独立试验,每次使用不同的随机选择基因集,结果显示 ROADIES 产生的系统发育树具有稳定性,不同试验结果之间的差异仅局限于少数有争议和低置信度的拓扑结构。
研究总结与展望
ROADIES 能够直接从原始(未注释)基因组组装中进行考虑不一致性的物种树构建,无需依赖单一参考基因组、输入比对、基因注释和预定义的直系同源关系。它通过随机采样位点、使用可处理多拷贝基因树的总结方法以及收敛算法,解决了从基因组自动化推断物种树的关键问题。未来,研究团队旨在进一步提高 ROADIES 的能力,如利用 GPU 加速关键阶段、结合分治策略改进运行时间并实现将新分类单元添加到现有物种树中。ROADIES 的出现为进化生物学研究、比较基因组学等领域提供了强大的工具,有望推动相关领域的快速发展。