基于图注意力网络与蛋白质大语言模型的多模态蛋白质功能预测方法ProtFun研究

【字体: 时间:2025年10月12日 来源:Bioinformatics Advances 2.8

编辑推荐:

  本研究针对实验方法确定蛋白质功能存在高成本、高劳动强度的问题,开发了ProtFun模型。该模型创新性地整合蛋白质大语言模型(LLM)嵌入与InterPro特征,通过构建蛋白质家族网络(PFN)并应用图注意力网络(GAT),在DeepGOZero、NetGO和DeepGraphGO三个基准数据集上实现了分子功能本体(MFO)、生物过程本体(BPO)和细胞组分本体(CCO)的精准预测,Fmax和Smin指标均优于现有先进方法。

  
在生命科学领域,蛋白质作为生命活动的执行者,其功能解析一直是研究的核心课题。然而,面对海量新发现的蛋白质序列,传统实验方法面临巨大挑战:耗时漫长、成本高昂,且目前基因本体(GO)数据库中仅有约1%的蛋白质获得实验验证注释。这种"序列爆炸"与"功能空白"的矛盾,严重制约了疾病机制研究和新药开发进程。
现有计算方法各存局限:基于序列相似性的方法难以捕捉复杂序列模式;基于蛋白质相互作用(PPI)网络的方法受限于数据覆盖范围;而蛋白质大语言模型(LLM)虽精度较高,却仅利用序列信息。这种多模态数据融合的缺失,正是当前蛋白质功能预测领域的瓶颈所在。
为此,穆罕默德·塔洛(Muhammed Talo)和塞尔达尔·博兹达格(Serdar Bozdag)在《Bioinformatics Advances》发表的研究中,提出了名为ProtFun的创新框架。该研究通过整合蛋白质序列嵌入、家族网络拓扑和功能域特征,实现了多维度信息的协同挖掘,为蛋白质功能预测提供了全新解决方案。
研究团队采用三个关键技术模块:首先利用ANKH蛋白质大语言模型生成1536维序列嵌入;其次基于InterProScan的14个数据库构建蛋白质家族网络(PFN),将具有相同家族/结构域/模体的蛋白质相连;最后通过图注意力网络(GAT)学习网络增强特征,并与InterPro特征向量拼接后输入多层感知机(MLP)进行分类预测。实验使用来自UniProt的包括117,170个蛋白质的大规模数据集,涵盖2,353个物种。
模型在DeepGOZero数据集上的表现
ProtFun在包含59,000个蛋白质的DeepGOZero数据集上展现卓越性能。对于分子功能本体(MFO),Fmax达到0.716±0.002,显著优于DeepGOZero的0.685;生物过程本体(BPO)的Smin为8.891±0.032,较基准方法提升明显。特别在拟南芥物种分析中,MFO的Fmax高达0.782,表明模型对植物蛋白质功能预测具有特殊优势。
模型在NetGO数据集上的表现
在遵循CAFA评估标准的NetGO数据集上,ProtFun在多数指标上领先。对于人类蛋白质的MFO预测,Fmax达到0.799,果蝇BPO预测为0.532,显示模型在不同物种间的强泛化能力。精确率-召回率曲线表明模型在MFO类别中实现了最佳平衡。
模型在DeepGraphGO数据集上的表现
与八种基准方法对比中,ProtFun在117,000个蛋白质的大规模数据集上保持稳定优势。相较于序列方法(如DeepGOPlus、BLAST-KNN)和网络方法(如DeepGraphGO、SEGT-GO),该模型在三个GO子本体预测中均取得最优或相当性能,证明其处理大规模多物种数据的能力。
消融实验揭示模块贡献
通过系统移除模型组件,研究发现:单独使用LLM嵌入时MFO的Fmax为0.685,单独使用InterPro特征向量(BPV)时为0.632,而结合两者(LLM+BPV)提升至0.701,证实多模态融合的有效性。完整ProtFun模型达到0.716,凸显GAT在捕捉蛋白质家族关系中的关键作用。
ProtFun的创新性体现在三个方面:一是构建了基于生物学特性的蛋白质家族网络,克服了PPI网络覆盖有限的缺点;二是通过GAT处理LLM嵌入,实现了序列与网络信息的协同学习;三是多模态融合策略增强了模型的特征表达能力。研究还发现,对于细胞定位相关功能(CCO),序列特征贡献更大,而对复杂生物过程(BPO),网络拓扑信息更为关键。
未来研究方向包括聚焦功能关键区域(如结构域)的嵌入生成,以及整合三维结构信息。该模型已开源发布,为功能基因组学研究提供了强大工具,有望加速疾病机制解析和药物靶点发现进程。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号