FANTASIA解码动物生命树中的功能暗蛋白质组:基于语言模型的大规模功能注释新范式

【字体: 时间:2025年08月16日 来源:Communications Biology 5.1

编辑推荐:

  本研究针对非模式生物中大量未注释的"暗蛋白质组"难题,开发了FANTASIA流程,通过整合ProtT5/ESM2等蛋白质语言模型(pLMs),实现了基于嵌入空间相似性的零样本功能注释。该工具在970个动物物种中成功预测了传统同源方法漏检的50%蛋白质功能,揭示了缓步动物抗逆、栉水母神经功能等进化创新机制,为解码生命之树提供了全新工具。

  

在基因组学飞速发展的时代,一个令人困扰的谜题始终存在:尽管测序技术日新月异,仍有大量蛋白质编码基因如同宇宙中的暗物质般难以捉摸,科学家们称之为"暗蛋白质组"。这种现象在非模式生物中尤为突出,传统同源比对方法往往对其中半数以上的蛋白质束手无策。随着地球生物基因组计划等大型项目产生海量数据,这种功能注释的缺失正成为阻碍生命科学发展的关键瓶颈。

西班牙巴塞罗那生物医学研究所(Institut de Recerca Biomèdica de Barcelona)的Gemma I. Martínez-Redondo领衔的研究团队在《Communications Biology》发表突破性成果。研究人员开发出FANTASIA(Functional ANnoTAtion based on embedding space SImilArity)流程,巧妙利用蛋白质语言模型(pLMs)的语义理解能力,如同为暗蛋白质组点亮了探照灯。该系统通过ProtT5和ESM2等模型将蛋白质序列转化为多维嵌入向量,在抽象的特征空间中捕捉远超越序列相似性的功能信号,实现了无需物种特异性训练的零样本功能预测。

研究团队采用模块化设计思路,构建了包含五个关键步骤的技术路线:首先对输入的23,184,398条动物蛋白质序列进行长度和冗余过滤;随后通过ProtT5等模型生成蛋白质嵌入;接着计算查询蛋白与GOA参考数据库的欧氏/余弦距离;然后基于最近邻原则转移GO术语;最终输出支持topGO富集分析的标准化结果。特别设计的可靠性指数(RI)通过距离转换公式(如RI=0.5/(0.5+de))量化预测置信度。

FANTASIA流程展现出三大突破性优势:在覆盖范围方面,该工具成功注释了传统方法完全遗漏的基因,如缓步动物中与极端抗逆相关的蛋白质、微颚动物门特异的咽部功能相关蛋白等。通过GO富集分析发现,48个核心功能术语(如病毒响应、免疫相关)在所有动物门类中保守存在,而34.43%的功能呈现门类特异性分布。

在预测质量上,与eggNOG-mapper等传统工具相比,FANTASIA展现出更高的术语精确度。语义相似度分析显示,虽然两种方法注释的基因集存在差异,但Wang相似性度量证实预测结果具有生物学一致性。以蝎子Centruroides sculpturatus为例,系统成功识别出同源方法漏检的 tachylectin-5 类似物(XP_023242874.1),结构预测验证其与鲎凝血素(PDB 1JC9)的相似性。

技术实现方面,研究团队开发了FANTASIA v1(基于Singularity容器)和v2(采用PostgreSQL向量数据库)两个版本。后者新增ESM2模型支持,通过HuggingFace接口优化嵌入计算,处理速度测试表明GPU加速可使性能提升约3倍。特别设计的序列相似性过滤机制(基于mmseqs2)有效避免了基准测试中的数据泄漏问题。

这项研究的意义远超出工具开发本身。首先,FANTASIA打破了传统功能注释对模型生物参考数据的依赖,为地球生物基因组计划等大科学工程提供了关键技术支持。其次,揭示的"暗基因"功能为理解生命进化提供了新视角——如缓步动物的抗逆机制、栉水母的独特神经系统等发现,可能隐藏着生命适应极端环境的分子密码。更重要的是,该方法展现的零样本学习能力,预示着AI在生命科学中的应用正从特定任务转向通用智能。

正如作者在讨论中指出,当前系统仍存在序列长度敏感性等技术局限。但随着蛋白质语言模型的迭代升级(如支持更长上下文窗口),FANTASIA框架有望持续进化。这项研究不仅照亮了暗蛋白质组的未知疆域,更开创了基于AI理解生命语言的新范式,为后基因组时代的生物发现安装了强力引擎。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号