
-
生物通官微
陪你抓住生命科技
跳动的脉搏
LSGFA:基于领域的大型原核生物基因组同源基因推断方法
《BMC Bioinformatics》:LSGFA: domain-based infraspecific large-scale prokaryotic genomic orthologous gene inference
【字体: 大 中 小 】 时间:2026年06月10日 来源:BMC Bioinformatics 3.3
编辑推荐:
摘要背景同源基因推断是进化生物学中的一个关键技术挑战。它通常依赖于序列相似性搜索,并使用图聚类方法来推断同源基因家族。然而,对于大规模基因组数据集而言,全对全序列相似性搜索非常耗时。在这项工作中,我们提出了LSGFA方法,该方法基于蛋白质结构域的相似性检测子图,然后在每个子图内进
同源基因推断是进化生物学中的一个关键技术挑战。它通常依赖于序列相似性搜索,并使用图聚类方法来推断同源基因家族。然而,对于大规模基因组数据集而言,全对全序列相似性搜索非常耗时。在这项工作中,我们提出了LSGFA方法,该方法基于蛋白质结构域的相似性检测子图,然后在每个子图内进行图聚类,这些子图对应于具有相似蛋白质结构域组成的序列。
LSGFA的分析工作流程包括四个步骤:蛋白质结构域注释、基于Pfam结构域的初始聚类、基于SSN的聚类以及泛基因组模式的检测。通过与五种最先进的工具(OrthoFinder、Roary、PanTA、Panaroo和PGAP2)在多个数据集上的对比测试表明,LSGFA在计算效率和生物学准确性之间实现了平衡。与OrthoFinder相比,LSGFA所需时间更短,同时识别出的核心基因更多,其同源群推断结果与OrthoFinder的高度一致。
由于原核生物中具有已知结构域的蛋白质比例较高,LSGFA特别适用于原核生物基因组,在这种情况下,它显著减少了计算时间,同时提供了准确的同源基因推断结果。
同源基因推断是进化生物学中的一个关键技术挑战。它通常依赖于序列相似性搜索,并使用图聚类方法来推断同源基因家族。然而,对于大规模基因组数据集而言,全对全序列相似性搜索非常耗时。在这项工作中,我们提出了LSGFA方法,该方法基于蛋白质结构域的相似性检测子图,然后在每个子图内进行图聚类,这些子图对应于具有相似蛋白质结构域组成的序列。
LSGFA的分析工作流程包括四个步骤:蛋白质结构域注释、基于Pfam结构域的初始聚类、基于SSN的聚类以及泛基因组模式的检测。通过与五种最先进的工具(OrthoFinder、Roary、PanTA、Panaroo和PGAP2)在多个数据集上的对比测试表明,LSGFA在计算效率和生物学准确性之间实现了平衡。与OrthoFinder相比,LSGFA所需时间更短,同时识别出的核心基因更多,其同源群推断结果与OrthoFinder的高度一致。
由于原核生物中具有已知结构域的蛋白质比例较高,LSGFA特别适用于原核生物基因组,在这种情况下,它显著减少了计算时间,同时提供了准确的同源基因推断结果。