使用MSA Transformer学习系统发育的语言

《Cell Systems》:Learning the language of phylogeny with MSA Transformer

【字体: 时间:2025年11月21日 来源:Cell Systems 7.7

编辑推荐:

  MSA Transformer通过分析列-wise保守性捕捉蛋白质进化关系,利用嵌入树重建系统发育树并揭示表观遗传依赖,在RNA聚合酶和DNA病毒蛋白中成功恢复已知及新关系,证明其与经典方法互补而非替代。

  

亮点

MSA Transformer 能够捕捉蛋白质序列之间的进化关系和距离
MSA Transformer 主要通过多序列比对(MSA)中的列级保守性来推断系统发育关系
嵌入树利用了经典方法所忽略的位点和间隙间的上位性效应
嵌入树能够揭示已知和新的进化关系

总结

传统的系统发育学假设位点之间是独立的,可能会忽略上位性效应。蛋白质语言模型能够捕捉蛋白质界中保守的结构和功能域之间的依赖性。在这里,我们探讨了以多序列比对(MSA)为输入的 MSA Transformer 是否能够捕捉进化距离,以及其表示在多大程度上反映了蛋白质序列进化中的上位性效应(这些信息在训练过程中并未被明确提供)。通过对真实和模拟的 MSA 进行系统性的重新排列,我们发现该模型利用了列级保守性来区分系统发育关系。利用内部嵌入,我们重建的树与最大似然推断得到的树高度一致。将这种方法应用于 RNA 病毒的 RNA 依赖性 RNA 聚合酶和核质大 DNA 病毒域,我们发现了既已存在的也新的进化关系。我们得出结论:MSA Transformer 是对传统推断方法的补充,而非替代,有助于更准确地了解蛋白质家族的进化历史。

图形摘要

Graphical abstract undfig1
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号