综述:利用层次直系同源群重建进化历史

《Journal of Molecular Evolution》:Reconstructing Evolutionary Histories with Hierarchical Orthologous Groups

【字体: 时间:2025年11月22日 来源:Journal of Molecular Evolution 1.8

编辑推荐:

  本综述系统阐述了层次直系同源群(HOGs)这一强大框架,及其在比较基因组学中的关键应用。文章详细介绍了HOGs相较于传统(“扁平式”)直系同源群推断方法的优势,特别是在解析基因家族进化历史、重建祖先基因组、追踪基因获得/丢失事件、功能注释和系统发育分析等方面。作者还深入探讨了HOGs的构建方法、当前面临的挑战(如对物种系统发育树和基因注释质量的依赖)以及不同数据库间的差异,为研究人员在基因组规模数据分析中有效利用HOGs提供了全面而平衡的视角。

  

层次直系同源群(HOGs)的概念框架

随着地球生物基因组计划(Earth Biogenome Project)等大规模测序项目的推进,海量基因组数据对精确推断直系同源(源于物种形成)和旁系同源(源于基因复制)关系的方法提出了更高要求。层次直系同源群(HOGs)为解决这一挑战提供了强大方案。与传统方法仅在单一分类水平上定义直系同源群不同,HOGs框架在物种系统发育树的指导下,系统地将同源基因组织到多个分类层次中。这种层次结构使得研究者能够追溯基因家族在不同进化深度下的完整演化轨迹。
一个HOG代表了一组源自某个特定分类层级(如哺乳动物共同祖先)的单个祖先基因的所有现存基因。其核心优势在于能够清晰地揭示复制事件的发生时机。例如,在1中,若无HOG信息,我们无法判断每个物种中的两个基因拷贝是独立复制(2)还是源自祖先复制(3)。而HOGs可以明确区分这两种情况:在场景1中,会在哺乳动物水平推断出一个HOG;而在场景2中,则会推断出两个HOGs。
HOGs可以从多个互补的视角来理解:它是在特定分类水平上定义的现存直系同源和旁系同源的集合;是 reconciled 基因树上的一个进化枝;是基因家族和亚家族的结构化定义;也是祖先基因的代理。如4所示,一个在真核生物最后共同祖先(LECA)水平的HOG包含了源自该祖先基因的所有后代。在更近的层次(如脊椎动物),由于基因复制,这个广泛的HOG可能会分裂成多个更小的HOGs。这种嵌套结构使得用户能够以精确界定且具有进化意义的方式选择分析的粒度。

HOGs的关键应用领域

基因家族进化历史
HOGs最直接的用途之一是追踪基因家族的进化史。通过比较不同分类层次的HOG组成,可以推断出复制和丢失事件在物种系统发育树上的发生位置。这对于研究由全基因组复制(WGD)事件(常见于植物)导致的大量基因复制尤为有用。例如,PhyloMCL软件通过检测物种树节点上HOG数量是否显著高于父节点或子节点,来推断植物基因组中的多倍体事件。
祖先基因组重建
重建祖先基因组是比较基因组学的一个重要目标。HOGs本身作为祖先基因的代理,其全集在特定水平上近似代表了该共同祖先的基因 repertoire。例如,祖先基因组数据库(Ancestral Genomes)结合PANTHER数据库的基因树和基于简约性原则的基因丢失推断,估算了111个祖先物种的基因内容。类似地,OMA数据库使用GETHOGs算法推断出涵盖近3000个现存基因组和1133个祖先基因组的HOGs。
基因家族的诞生、扩张与收缩
通过将基因家族映射到其推断存在的最深节点(系统地层学,phylostratigraphy),HOGs可以估算每个基因家族的“诞生”时间。研究发现,管家基因大多在LUCA(最后共同祖先)到LECA(最后真核共同祖先)之间早期涌现,而组织特异性表达基因则出现较晚(如哺乳动物时期)。通过比较不同分类水平的HOGs,可以系统追踪基因家族随时间的扩张(复制)和收缩(丢失)。例如,对鳞翅目昆虫的研究发现,与植物取食适应相关的基因家族的扩张和收缩在不同谱系间存在差异,并与寄主植物利用相关联。
祖先基因顺序
基于HOGs提供的祖先基因内容框架,可以进一步推断祖先基因顺序。AGORA(祖先基因顺序重建算法)方法利用现存物种间保守的基因连锁(synteny)和基因顺序,重建祖先的染色体排列,产生“连续祖先区域”(CARs)。通过对73个祖先基因组和74个现存脊椎动物的分析,AGORA在50亿年进化过程中识别出大量染色体内和染色体间重排,发现断点热点区域在免疫基因附近富集,而在发育基因附近则较少,提示了基因组结构的功能限制。
功能注释
重复基因可能经历新功能化、亚功能化等命运。HOGs的层次结构为在不同分类水平上映射基因功能提供了框架,允许更准确地基于进化史预测基因功能。例如,HOGPROP工具利用HOG层次结构传播性状相关注释(如GO术语),从而对数量性状位点(QTL)内的候选基因进行功能相关性排序。PAINT(系统发育注释和推断工具)则利用 curated 基因树来推断功能的获得和丢失,进而跨树传播GO注释。
系统发育分析寻找共进化基因家族
系统发育分析通过识别跨物种的基因存在/缺失、复制/丢失的共享模式来预测共进化。HOGs通过明确纳入复制和丢失事件,为系统发育分析提供了更精细的框架。HogProf等工具对每个HOG的系统发育特征进行编码,支持从推断蛋白质间功能关系到揭示祖先功能相互作用等多种应用。

HOGs的构建方法与挑战

HOGs的推断方法主要分为三类:基于图聚类的方法、基于基因树的方法以及结合两者要素的混合方法。
基于图的方法(如OMA的GETHOGs、OrthoDB)利用序列相似性图,通过 reciprocal best hit (RBH) 等概念和聚类算法(如MCL)初步定义直系同源群,然后根据已知物种树施加分类学约束,引入层次关系。其优势在于可扩展性强,适合大规模数据分析,但对参数选择敏感。
基于基因树的方法(如PhylomeDB, PANTHER, Ensembl Compara)显式重建基因家族的系统发育树,并将其与物种树进行reconcile,从而区分物种形成事件和复制事件。这种方法能高精度界定直系同源和旁系同源,但计算量大,且依赖于可靠的多序列比对和基因树定根。
混合方法(如Hieranoid, FastOMA, OrthoFinder)通常先进行图聚类,再辅以系统发育重建来优化层次关系,旨在平衡计算效率和进化准确性。此外,许多方法采用映射策略,将查询序列快速放置到预先定义的HOGs中,而非从头开始推断,提高了效率。
HOGs的推断面临多项挑战:
  1. 1.
    对底层直系同源推断的依赖:不同方法或参数设置会导致HOGs的组成和数量存在显著差异。
  2. 2.
    对注释和组装的依赖:基因组注释的错误、不完整性或污染会严重影响HOG的准确性。工具如OMArk和BUSCO可用于评估蛋白质组质量。
  3. 3.
    对物种系统发育树的依赖:物种树的错误或不确定性会传播至HOGs框架,导致错误的复制或丢失推断。不完全谱系分选、杂交和水平基因转移(HGT)等事件也增加了复杂性。
  4. 4.
    对进化假设的依赖:大多数方法基于基因垂直进化,未充分考虑结构域水平的事件(如融合、改组)和HGT。
  5. 5.
    可扩展性:随着基因组数量增加,全对全序列比较和基因树构建的计算成本变得高昂,需要启发式方法来实现线性复杂度。
  6. 6.
    缺乏HOGs专用基准测试:现有的Quest for Orthologs (QfO) 基准测试主要针对成对直系同源关系,未能充分评估HOGs的层次结构、复制事件定位等独特特征。需要开发新的度量标准和使用模拟数据集或手动 curated 的参考基因家族进行更全面的评估。

结论与展望

层次直系同源群已成为比较基因组学中一个强大且日益重要的框架。它们提供了跨分类层次的、基于进化背景的基因家族表征,支持系统发育分析、祖先基因组重建、基因家族进化研究和功能注释等多种下游分析。尽管在可扩展性、基准测试和结果解读方面仍存在挑战,但HOGs在整合不同进化时间尺度的基因进化信息方面具有独特优势。未来的发展方向可能包括扩展HOGs以兼容系统发育网络(容纳杂交和水平基因转移等事件)、开发更稳健的基准测试方法、提供置信度评分以及改进对结构域水平直系同源关系的支持。随着持续的努力以扩大规模、进行基准测试和提高可解释性,HOGs有望在高通量比较分析时代继续在进化和功能基因组学中发挥核心作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号