
-
生物通官微
陪你抓住生命科技
跳动的脉搏
EdgeHOG:大规模精细祖先基因顺序推断方法的突破与应用
【字体: 大 中 小 】 时间:2025年08月20日 来源:Nature Ecology & Evolution 14.5
编辑推荐:
本研究针对现有祖先基因顺序推断方法在可扩展性和进化深度上的局限性,开发了基于层次正交群(HOGs)的线性复杂度算法edgeHOG。通过2845个现存基因组数据重建1133个祖先基因组(包括18亿年前的真核生物最后共同祖先LECA),揭示了基因邻域的功能关联性及染色体进化模式。该工具在《Nature Ecology & Evolution》发表,为比较基因组学研究提供了高效新范式。
基因组进化研究长期面临祖先基因顺序重建的挑战。传统方法如AGORA虽能重建祖先基因组,但依赖计算密集的基因树比对,难以应对大规模数据集。随着地球生物基因组计划(Earth BioGenome Project)等测序项目的推进,开发能处理数千基因组的高效算法成为迫切需求。
研究团队开发的edgeHOG创新性地采用层次正交群(Hierarchical Orthologous Groups, HOGs)作为基因谱系模型,通过三步算法实现高效推断:1)自底向上传播基因邻接关系;2)基于简约性原则自顶向下修剪错误传播;3)通过线性化解决冲突邻接。该方法在模拟数据中达到98.9%精确度和96.8%召回率,优于AGORA的96.0%/94.9%。
关键技术包括:
使用OMA数据库2845个现存基因组(1965细菌/173古菌/707真核生物)构建HOGs
基于ALF模拟器和酵母基因顺序浏览器(YGOB)数据集验证
通过pyHAM工具进行基因邻接关系可视化
采用TimeTree资源进行基因邻接年代测定
主要研究发现:
LECA重建揭示功能关联
在真核生物最后共同祖先中重建1009个连续区域,其中194个显著富集相同生物学过程(如染色质组织、DNA修复)。组蛋白H2A-H2B邻接在66%现存物种中保守,支持古老功能模块的保留。
组蛋白簇的进化轨迹
后生动物特有组蛋白基因多拷贝簇(如果蝇含109个邻接)被追溯到LECA单拷贝邻接,揭示串联复制在动物谱系中的扩张机制。
性染色体的年轻邻接特征
异形性染色体(X/Y、Z/W)较常染色体具有显著更年轻的基因邻接(p<0.05),反映其快速进化特性。灵长类19号染色体、鸟类微染色体等也呈现类似模式。
方法学优势验证
在50/156个脊椎动物基因组比较中,增加样本量使祖先邻接数从8193提升至11051,证实大数据提升重建分辨率。运行时长远低于AGORA(100基因组仅需1.2小时 vs 43小时)。
该研究通过edgeHOG实现了三大突破:1)首次在单次分析中覆盖三域生物;2)建立迄今最深的真核祖先基因组重建;3)开发邻接年代测定新功能。工具已开源(GitHub/DessimozLab),与FastOMA组合可在数天内处理全真核数据集。
局限性包括对网状进化事件的敏感性(如光合作用基因在LECA中的错误邻接),未来可通过整合染色体级分组提升连续性。这项发表于《Nature Ecology & Evolution》的工作为追溯基因组架构起源、解析功能模块进化提供了关键方法学支撑,将显著推动大规模比较基因组学研究。
生物通微信公众号
知名企业招聘