NCBI直系同源数据库:基于多组学证据的高精度真核生物直系同源基因计算框架及其在功能注释传播中的应用
【字体:
大
中
小
】
时间:2025年09月26日
来源:Journal of Molecular Evolution 1.8
编辑推荐:
【编者推荐】为解决真核生物基因组注释中直系同源关系计算精度不足与可扩展性受限的问题,NCBI研究团队开发了整合蛋白质相似性、核苷酸比对和微共线性分析的"NCBI Orthologs"管道。该研究通过建立高精度1:1直系同源关系,成功实现了跨物种基因功能注释的精准传播,为比较基因组学研究提供了重要资源。研究成果发表于Journal of Molecular Evolution,对推动真核生物基因进化研究具有里程碑意义。
随着高通量测序技术的飞速发展,真核生物高质量基因组数据的数量正以前所未有的速度增长。Rhie等(2021)和达尔文生命之树项目(2022)的研究表明,这种数据爆炸式增长为比较基因组学研究带来了巨大机遇,同时也对直系同源基因的计算方法提出了严峻挑战。直系同源基因作为起源于共同祖先并通过物种形成事件演化而来的基因(Fitch 2000),是理解基因功能进化、进行跨物种功能注释传播的基础。然而,现有的直系同源推断方法大多仅依赖于蛋白质序列相似性(Langschied等,2024),忽略了基因组水平的进化信号,如相邻基因的微共线性(Zhao和Schranz,2019;Lovell等,2022)和侧翼基因组序列信息(Kirilenko等,2023)。
更令人困扰的是,当前大多数直系同源资源(如Ensembl Compara、OrthoMCL-DB、OrthoDB、PANTHER和OMA)更新频率较低,难以跟上基因组组装和注释持续更新的步伐。此外,这些资源缺乏与其他相关资源的全面整合,限制了其在进行全面比较分析时的应用价值。面对这些挑战,美国国家生物技术信息中心(NCBI)的研究团队在RefSeq框架内开发了"NCBI Orthologs"资源和计算管道,旨在为真核生物基因组提供可扩展且高精度的直系同源关系计算方案。
该研究团队通过整合蛋白质相似性、核苷酸比对和微共线性信息,建立了一个多层次的分析方法,显著提高了直系同源识别的分辨率,特别是在密切相关的旁系同源基因之间。研究成果发表在《Journal of Molecular Evolution》期刊上,为真核生物比较基因组学研究提供了重要工具和资源。
研究采用多证据整合策略:首先使用DIAMOND(或BLASTP)进行全蛋白组比对;随后基于最佳比对蛋白异构体提取外显子序列(含UTR区域)并延伸2kb侧翼序列进行核苷酸水平discontiguous-megablast比对;最后评估20个基因座窗口内的微共线性保守性。使用人类(GCF_000001405.40)、果蝇(FlyBase Release 6.54)等6个锚物种,通过决策树算法筛选高置信度1:1直系同源对。数据来源于RefSeq真核基因组注释管道(EGAP)生成的577个脊椎动物和312个节肢动物基因组。
研究团队设计了系统化的计算流程(图1),该管道以一对基因组(查询和subject)的完整基因组序列、蛋白质编码基因注释信息和相应蛋白质序列作为输入。算法首先识别同源基因对,其中蛋白质相似性得分在最佳得分的20%范围内。每个候选同源基因对(X, Y)都在包含X或Y基因座的所有竞争对背景下进行评估,这种上下文评估对于区分真正直系同源关系和旁系同源关系至关重要。
管道为每个候选对计算三个关键指标:蛋白质序列相似性(使用改进的Jaccard指数标准化比对得分)、核苷酸水平保守性(连接所有注释外显子序列包括非翻译区并延伸2kb侧翼序列进行比对)、微共线性保守性(在20个基因座窗口内评估同源基因对数量)。这些指标的综合使用使得算法能够在复杂的基因组环境中以高精度识别直系同源关系。
对于具有非零微共线性得分的候选对,算法在满足以下任一条件时判定为直系同源:候选对具有非零微共线性得分且蛋白质相似性得分≥无微共线性支持的竞争对;候选对微共线性得分≥2而竞争对无微共线性支持;候选对微共线性得分超过竞争对、核苷酸比对得分≥任何竞争对、且蛋白质相似性超过所有其他竞争对至少5%并在查询或subject中得分最高;候选对微共线性得分超过竞争对至少2且核苷酸比对得分≥任何竞争同源对。
对于微共线性得分为零的候选对,应用更严格标准:无竞争对具有微共线性支持;蛋白质比对覆盖较长蛋白质的50%以上和较短蛋白质的90%以上;蛋白质相似性和核苷酸序列比对得分超过竞争对至少5%;蛋白质相似性得分在查询或subject中最高。
使用Orthology Benchmarking Service(QfO)对管道性能进行评估。选择12个脊椎动物(以人类、小鼠和斑马鱼为锚物种)和3个节肢动物(以果蝇为锚)进行计算。将Ensembl基因标识符映射到QfO数据集中使用的UniProtKB标识符后,提交了677,637个直系同源对(其中193,307个来自直接比较,484,330个通过传递性推断)进行评估。
结果显示,NCBI Orthologs方法在召回率方面较低,这主要源于管道严格只返回1:1直系同源对、避免任何模糊调用,以及仅针对脊椎动物和节肢动物进行计算。然而,在基因本体(GO)和酶分类(EC)挑战中,NCBI Orthologs的精确度得分在所有方法中最佳(补充图2a,b)。即使在过滤其他方法结果只包含相同物种对时,这种相对较高的精确度仍然保持(补充图2c-d)。
在SwissTree挑战中,由于定义分类范围外的基因树缺乏数据,导致阳性预测值(PPV)较低。但对原始结果的分析显示,在包含我们预测分类单元的15个基因树中,有537个真阳性调用而无任何假阳性调用。在VGNC挑战中,NCBI Orthologs仅因一个嵌合基因模型产生一个假阳性调用,同时有21,730个真阳性。
研究团队将人类基因组(GRCh38)作为脊椎动物谱系的主要锚物种,利用HUGO基因命名委员会(HGNC)提供的广泛策展和社区支持。在灵长类动物中,管道识别了15,196-17,869个与人类的直系同源基因对,覆盖每个查询基因组中75.5%至85.6%的蛋白质编码基因(图2a,b)。
随着分析扩展到脊椎动物中更远缘的分类群,直系同源调用的绝对数量减少,但在各种脊椎动物支系中,具有识别直系同源的蛋白质编码基因比例仍然很大。哺乳动物和鸟类中平均79.4%(±4.5%)的蛋白质编码基因报告了直系同源。爬行动物中直系同源的平均比例降至69.9%(±5.3%),主要原因是它们的基因组比鸟类含有更多蛋白质编码基因。两栖动物中直系同源在蛋白质编码基因中的比例进一步降低(60.7±4.9%),反映了与人类锚的距离增加。
人类和鱼类基因组之间的直系同源直接推断提出了重大挑战。由于鱼类谱系内广泛的基因复制和多倍体事件历史,与人类识别的直系同源绝对数量和比例急剧下降。为了解决这个问题,研究团队添加了斑马鱼参考基因组(GRCz11)作为传递锚,为所有RefSeq硬骨鱼以及鲨鱼和相关物种识别直系同源。当鱼类基因的斑马鱼直系同源也被识别为人类基因的直系同源时,该鱼类基因被认为传递性地是人类基因的直系同源。斑马鱼传递锚的添加识别了鱼类RefSeq基因组中没有人类直系同源的直系同源,显著增加了鱼类基因组中的直系同源覆盖度。
在节肢动物支系中,研究团队使用果蝇(Drosophila melanogaster)作为模型锚(图2c,d)。随着RefSeq节肢动物基因组的扩展,出现了包含大量在进化上与果蝇远缘的物种的支系,包括膜翅目、鞘翅目和鳞翅目昆虫目。类似于鱼类的斑马鱼,研究团队使用蜜蜂(Apis mellifera)、赤拟谷盗(Tribolium castaneum)和家蚕(Bombyx mori)作为它们各自目的传递锚,以识别与果蝇锚共享的直系同源之外的支系特异性直系同源。
添加支系特异性传递锚导致通过更强的微共线性信号改进直系同源检测。研究团队确定了一个脊椎动物(斑马鱼)和三个节肢动物(蜜蜂、家蚕和赤拟谷盗)作为传递锚,此外人类和果蝇作为主要锚。EGAP根据正在注释基因组的分类自动选择适当的锚。当选择传递锚时,查询基因组和主要锚之间的直系同源基于主要锚和传递锚之间的直系同源进行传递性推断。
直系同源计算管道的主要输出是一个综合表格,列举所有通过初始全蛋白比对步骤的查询-subject蛋白质对,提供包括蛋白质和核苷酸比对统计以及展示微共线性邻居数量的详尽指标集。表格还包括指示每个蛋白质对是否被识别为直系同源的列。
在内部,这些表格被加载到SQL数据库中,用于基因命名和报告目的。所有被识别为直系同源的基因对被整合到直系同源集中。每个直系同源集由锚GeneID表示,并由被识别为该锚基因直系同源的所有基因的GeneID组成。NCBI GeneID是稳定的数字标识符,即使在底层序列数据或相关元数据(如基因名称、符号、别名和描述)发生变化时,也能在不同注释版本中跟踪。
在涉及传递直系同源的情况下,直系同源仅针对查询基因组及其最特定锚物种进行计算。例如,当熊蜂是正在注释的查询基因组时,蜜蜂自动选择为锚物种。输出数据然后加载到数据库中,其中对每个具有相应蜜蜂直系同源的熊蜂基因推断到果蝇的传递直系同源。报告果蝇直系同源的熊蜂基因随后被添加到果蝇直系同源集中,而仅识别蜜蜂直系同源的剩余熊蜂基因被添加到蜜蜂直系同源集中。
在最终步骤中,基因名称从直系同源锚传播到每个直系同源集的所有成员。这一步至关重要,因为它使得能够为许多物种分配信息性基因名称,显著增强RefSeq基因组注释的效用。例如,在2023年前注释的33个果蝇物种中,蛋白质编码基因的平均数量为14,105。管道每个物种识别平均11,743个直系同源对。最初,几乎所有的蛋白质编码基因都被分配了格式为LOC后跟唯一NCBI GeneID的占位符符号(例如LOC108648959)。然而,利用直系同源进行基因符号传播显著增加了具有信息性符号的基因数量,每个物种平均5,774个,最多6,135个。
研究团队还将管道应用于RefSeq原生动物人类病原体和选定真菌。对于原生动物,选择恶性疟原虫3D7、布氏锥虫TREU927、弓形虫ME49和硕大利什曼原虫Friedlin株作为单独锚物种进行直系同源计算。管道识别了平均5975(N=8)、7311(N=12)、4572(N=17)和3266(N=8)个直系同源对,分别对应锚物种布氏锥虫、硕大利什曼原虫、恶性疟原虫和弓形虫。
对于疟原虫和利什曼原虫,管道识别了各自锚物种超过94%蛋白质编码基因的直系同源。这一高比例很可能是因为我们计算了与锚相同属或亚科内物种的直系同源。事实上,我们能够识别所有17和12物种中恶性疟原虫64.6%和硕大利什曼原虫69.6%蛋白质编码基因的直系同源。另一方面,仅26.3%布氏锥虫蛋白质编码基因在所有8锥虫物种中具有直系同源。
在测试的原生动物寄生虫中,弓形虫作为最多样化物种组的锚。弓形虫与其两个最近物种犬新孢子虫和贝氏贝诺孢子虫共享最高数量的直系同源。
对于真菌,研究团队计算了370个真菌物种的直系同源关系,使用以下分类单元作为各自分类纲或目中的比较锚:烟曲霉Af293株(散囊菌纲,159分类单元)、酿酒酵母S288C株(酵母纲,31分类单元)、白色念珠菌SC5314株(Serinales目,35分类单元)、尖孢镰刀菌Fo47株(粪壳菌纲,133分类单元)和小孢根霉ATCC 52813株(毛霉目,12分类单元)。分析识别了平均6556(N=159)、4208(N=31)、4683(N=35)、7236(N=133)和5983(N=12)个直系同源对,分别对应锚物种烟曲霉、酿酒酵母、白色念珠菌、尖孢镰刀菌和小孢根霉。
NCBI直系同源数据可通过NCBI Datasets访问。该资源提供Web界面和编程工具,以促进直观和用户友好的直系同源数据下载。
Web访问:要通过NCBI网站探索直系同源数据,用户可以从访问NCBI主页www.ncbi.nlm.nih.gov 开始,在搜索栏中输入物种名称以及基因符号或描述(例如Homo sapiens ACE2)。如果查询基因是NCBI直系同源集的一部分,其基因特定知识面板将包括"Orthologs"按钮,直接链接到相应的直系同源页面。该页面允许用户按分类浏览直系同源集,下载相关序列和元数据,并可选使用COBALT多序列比对工具对齐选定序列。此外,页面提供链接以使用NCBI基因组数据查看器查看基因的基因组上下文。
编程访问:NCBI直系同源数据可以使用NCBI Datasets命令行工具以编程方式访问。datasets工具允许用户查看直系同源集中包含基因的元数据,或下载包含一个或多个直系同源集序列和元数据的基因数据包。可以使用基因符号和分类单元名称、GeneID或 accession number指定数据检索。--ortholog标志允许用户下载所有可用直系同源(--ortholog all)或基于分类的过滤子集(例如--ortholog mammals)。生成的基因数据包包括序列数据和元数据,以ZIP存档交付。
NCBI Orthologs管道采用的方法学和相关数据模型主要由传播基因名称的需求驱动。这一特定应用塑造了支撑我们方法的几个核心原则的采用。首先,我们坚持严格的1:1直系同源配对以确保明确的基因名称传播。其次,将过程扩展到数百个基因组的能力至关重要。鉴于NCBI每年注释的真核基因组数量庞大,管道被设计为高效处理个体基因组,避免了在添加新基因组和注释时重新计算整个数据集中直系同源分组的计算密集型需求。第三,直系同源在基因水平锚定,利用稳定、唯一的标识符,这些标识符独立于特定基因组组装版本。这种解耦对于适应频繁的注释更新至关重要,由EGAP管道的改进和新的基因组或转录组数据的可用性驱动,从而确保数据一致性并最小化对用户工作流的干扰。最后,我们直系同源调用的1:1性质促进了简化的"直系同源集"数据模型的采用,其中集合中的所有基因被认为是彼此直系同源的。每个直系同源集的锚物种GeneID分配作为标识符进一步简化了数据管理,并消除了为每个直系同源组生成独特唯一标识符的必要性。
这些指导原则不仅有效服务于NCBI内基因名称传播的即时需求,还提出了与其他类似资源采用的方法学形成对比的方法。例如,考虑全对全关系的基于图的方法通常需要在纳入新基因组时完全重新计算整个直系同源数据集。虽然构建"核心"系统发育树随后附加新测序基因组基因的策略可以减轻其中一些计算负担,但它们仍然代表了重大的任务。NCBI Orthologs管道通过整合蛋白质序列相似性与综合基因注释信息(包括相邻外显子区域上下文和微共线性)区分自己,以实现直系同源推断的高精度。对完整注释信息的依赖,包括基因、转录本和外显子的精确基因组位置,对许多个体研究组来说可能是一个相当大的挑战。然而,EGAP跨众多真核基因组生成一致、高质量注释的能力,结合表示基因组注释的标准化数据模型,独特地定位了NCBI执行此类分析并产生对科学界有重要价值的直系同源输出。
NCBI Orthologs采用的方法具有固有局限性。如结果部分所述,我们的算法被设计为保守地排除模糊的直系同源调用,意味着如果不能明确识别单个最佳对,则不对所涉及基因进行直系同源调用。我们认识到这种方法不代表旁系同源关系或由复杂进化事件产生的其他复杂同源场景。因此,给定的直系同源集可能缺乏物种代表性,不仅由于基因丢失,而且当某些基因复制事件导致模糊的直系同源调用时。相反,尽管发生基因复制事件仍进行1:1调用时,锚物种的命名仅传播到查询物种中的那个单一直系同源旁系同源。剩余的旁系同源将然后接收通用名称,可能向用户掩盖其他相关基因的存在。这可能无法满足一些习惯于1对多和多对多直系同源关系的用户的需求。
虽然命名传播是开发NCBI直系同源管道的主要动机,但跨物种应用基因名称仍然具有挑战性。例如,一些基因可能以不广泛适用于其他物种的生物体或基因组特异性信息命名,如表型、组织或基因组位置,并且易于谱系特异性拷贝数变化的基因簇(如组蛋白和嗅觉受体基因)通常不适合基于直系同源的命名。类似地,果蝇(Drosophila melanogaster)命名法对许多基因使用格式为"CG"后跟数字的符号,不是特别具有描述性,将这些传播到所有节肢动物直系同源对用户几乎没有好处。
最近添加的昆虫锚物种(蜜蜂、家蚕和赤拟谷盗)展示了改进支系内直系同源表示的承诺。这些锚的选择基于对RefSeq树和直系同源计算结果的仔细分析。我们继续监测RefSeq收集以识别额外的传递锚,以纳入更多支系特异性直系同源。例如,截至2025年3月,RefSeq包括非昆虫节肢动物,如26甲壳动物和21蛛形动物。我们的初步评估表明,这些支系内基因组的当前采样不足
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号