
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自适应图卷积网络的蛋白质-蛋白质相互作用功能预测模型PF-AGCN
【字体: 大 中 小 】 时间:2025年08月28日 来源:Bioinformatics 5.4
编辑推荐:
本研究针对蛋白质功能预测中复杂相互作用网络建模不足的问题,开发了PF-AGCN自适应图卷积网络。通过融合功能图谱(GO hierarchy)和蛋白质互作网络(PPI),结合ESM-1b语言模型与扩张因果卷积(DCC),实现了对蛋白质功能的多层次表征。实验表明该模型在分子功能(MF)、生物过程(BP)和细胞组分(CC)预测中Fmax提升7.3%-26.9%,为精准医疗和靶点发现提供了新工具。
在生命科学领域,蛋白质如同精密运作的分子机器,它们通过复杂的相互作用网络(PPI)执行各类生物学功能。然而,现有预测方法面临三重困境:传统序列比对工具(如BLAST)仅适用于同源蛋白,深度学习模型难以兼顾全局序列语义与局部结构特征,而图神经网络在处理基因本体论(Gene Ontology, GO)的层级关系时易丢失方向性信息。这些局限使得现有方法在CAFA(Critical Assessment of Functional Annotation)评估中表现欠佳,制约了精准医疗和药物靶点发现的进展。
为突破这些技术瓶颈,Xiamen University的Shumin Yang团队在《Bioinformatics》发表研究,提出PF-AGCN(Protein Function Adaptive Graph Convolutional Network)。该模型创新性地将蛋白质功能预测转化为图节点分类问题,通过双通道架构同步解析GO术语的层级关系(功能图谱)和蛋白质互作网络(结构图谱)。研究团队采用ESM-1b蛋白质语言模型提取长程进化特征,结合堆叠扩张因果卷积(Dilated Causal Convolution, DCC)捕捉3-31个氨基酸尺度的局部模体,并设计蛋白质功能注意力机制动态学习PPI与GO的关联规则。在包含44,683个GO术语的UniProtKB数据集上,模型展现出优异的跨物种泛化能力。
关键技术方法包括:1)基于ESM-1b的1280维序列嵌入与4层DCC的局部特征融合;2)构建双向扩散的蛋白质图(BLAST E-value<10-10)和单向传播的功能图;3)动态TopK稀疏化注意力机制(λ=NP/4);4)采用BCE损失函数进行多标签分类。实验使用NVIDIA RTX 4090显卡,在10,000条跨物种蛋白序列上验证性能。
主要研究结果
Sequence Processing
通过对比PF-noDCC消融实验发现,DCC模块使MF任务的AUC提升0.007(p<0.05),有效识别出β-折叠(5-15残基)和α-螺旋(10-20残基)等二级结构。ESM-1b与DCC的门控融合机制(公式4)显著增强活性位点的特征权重。
Protein Functional Attention
如图6所示,注意力机制成功过滤GO图谱中35%冗余关系(如次级"is_a"链接),但在BP领域会误删GO:0043946→GO:0003824等有效关联。PPI预测准确率达91%(图7),证明该模块能有效建模"binding→catalytic activity"等功能层级。
Adaptive Graph Convolution
如表4所示,当BLAST E-value阈值设为10-10时,模型在CC任务达到Fmax=0.693±0.002(△+4.9% vs PANDA2)。AF-GCB模块对MF预测贡献最大(△Fmax=0.041),而AP-GCB在BP任务中使AUC提升7.2%。
结论与展望
该研究开创性地将自适应图卷积引入蛋白质功能预测领域,通过PF-AGCN实现三项突破:1)首次在统一框架中整合GO层级与PPI拓扑,MF任务Fmax达0.591±0.002;2)门控机制平衡全局语义(ESM-1b)与局部模式(DCC),使BP预测AUC提高至0.706;3)动态注意力保留90%真实PPI(图7),较GAT-GAT减少3.3%噪声干扰。局限性在于稀疏PPI网络中的信息流动效率,未来拟通过多组学数据融合提升预测覆盖度。这项工作为理解蛋白质相互作用网络提供了新范式,相关代码已开源(GitHub/smyang107/PFAGCN),有望加速精准药物设计与合成生物学研究。
生物通微信公众号
知名企业招聘