基于GO相似性异质网络传播的蛋白质功能预测新方法GOHPro及其在酵母和人类数据集中的性能验证

【字体: 时间:2025年06月01日 来源:Scientific Reports 3.8

编辑推荐:

  针对蛋白质功能预测中数据稀疏性和功能模糊性难题,长沙大学研究人员开发了GOHPro方法,通过整合蛋白质功能相似性网络与GO语义关系网络构建异质网络,采用网络传播算法实现功能注释优先排序。在酵母和人类数据集中,GOHPro的Fmax较现有方法提升6.8%-47.5%,尤其在CAFA3基准测试中人类物种性能提升超62%,为解析蛋白质功能歧义(如AAA+ATPases)提供了新工具。

  

蛋白质是生命活动的核心执行者,其功能解析对理解疾病机制和药物开发至关重要。然而,随着基因组测序技术的飞速发展,已知蛋白质序列与功能注释之间的差距日益扩大。传统实验方法如基因敲除和生化检测虽可靠,但耗时费力且难以规模化。尽管现有计算方法(如基于蛋白质相互作用网络PPI或深度学习模型)取得进展,但数据稀疏性、功能歧义性(如共享结构域蛋白质的功能差异)仍是重大挑战。例如,人类PEX6和VCP虽均含AAA+ATPase结构域,却分别参与过氧化物酶体组装和蛋白质降解,传统方法难以区分此类功能分歧。

针对这些问题,长沙大学数学与计算机学院的研究团队在《Scientific Reports》发表了题为"Protein function prediction using GO similarity-based heterogeneous network propagation"的研究,提出GOHPro方法。该方法创新性地整合多组学数据,构建包含蛋白质功能相似性网络和GO语义网络的异质网络,通过全局信息传播实现高精度功能预测,为"暗蛋白质"(dark proteins)的功能注释提供了新思路。

关键技术方法包括:(1)基于Pfam数据库结构域和Complex Portal复合体数据构建蛋白质功能相似性网络(含结构域相似性DSim和模块相似性MSim);(2)利用GO的"is_a"和"part_of"关系建立语义相似性网络;(3)通过异质网络传播算法(公式12)预测未知蛋白质功能。实验采用酵母(3162个蛋白质)和人类(7317个蛋白质)PPI网络,通过留一法交叉验证和CAFA3基准测试评估性能。

研究结果
整体性能验证
在酵母数据集中,GOHPro的Fmax在生物过程(BP)、分子功能(MF)和细胞组分(CC)三个本体中分别达到0.45、0.548和0.58,较exp2GO方法提升6.8%-15.9%。人类数据集上,尽管PPI网络更稀疏,GOHPro仍保持领先,MF类别Fmax达0.447(提升47.5%)。AUPR和AUC曲线分析显示,GOHPro在BP类别的AUPR值显著高于对比方法(酵母:0.963 vs 0.603-0.919)。

功能特异性验证
通过AAA+ATPase结构域蛋白质的案例分析,GOHPro成功区分了人类PEX6(过氧化物酶体组织,GO:0007031)与VCP(ATP水解活性,GO:0016887)的功能差异。扰动实验表明,删除PEX6的过氧化物酶体受体输出模块会使其BP注释精度下降100%,而删除AAA+结构域对MF预测无影响,证实方法对功能关键特征的敏感性。

同源性与网络连通性分析
将蛋白质按同源性分为高、中、低三组后发现:模块相似性网络(ModuleNet)对高同源蛋白质(如酵母ORC1的DNA复制功能)预测效果最佳(BP精度F=65.50,p<0.001),而结构域相似性网络(DomainNet)对低同源"暗蛋白质"更具优势(CC召回率F=6.33,p=0.002)。网络删除实验显示,Dark蛋白质的Fmax对网络连通性更敏感(酵母BP下降76% vs 高同源组的33%)。

参数优化与CAFA3验证
参数γ分析表明,BP、MF和CC的最佳权重分别为0.8、0.6和0.9,反映不同本体对结构域和模块特征的差异化需求。在CAFA3独立测试中,GOHPro的Fmax较基线方法提升83%-105%,人类MF达0.43,验证了方法的泛化能力。

结论与意义
该研究通过整合多组学数据构建异质网络,解决了蛋白质功能预测中的两大核心问题:(1)利用GO语义关系网络捕捉功能层次结构,克服了PPI网络的稀疏性;(2)通过模块相似性(MSim)和结构域相似性(DSim)的线性组合(公式7),有效区分共享结构域蛋白质的功能差异。GOHPro在CAFA3基准中62%的性能提升,证实其适用于缺乏进化特征的"暗蛋白质"注释。未来结合AlphaFold等结构预测工具,有望进一步缩小未表征蛋白质组的注释缺口。

研究局限性在于对瞬时相互作用(如VCP-蛋白酶体关联)的区分能力有限,这提示未来需开发更精确的模块权重算法。此外,方法在人类BP类别(Fmax 0.261)的性能仍低于酵母,反映复杂生物系统中网络拓扑的挑战。尽管如此,该工作为多组学数据整合提供了范式,其异质网络框架可扩展至药物靶点发现等应用场景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号