
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图神经网络与结构特征融合的蛋白质相互作用位点精准预测新方法TargetPPI
【字体: 大 中 小 】 时间:2025年06月29日 来源:Analytical Biochemistry 2.6
编辑推荐:
【编辑推荐】针对蛋白质相互作用(PPIs)位点预测中结构信息利用不足的难题,浙江大学团队开发了融合双向长短期记忆网络(Bi-LSTM)、卷积神经网络(CNN)和节点相似性边聚合图注意力网络(EGR-NS)的TargetPPI模型。该模型通过整合ProtT5-XL生成的全局特征与六类局部结构特征,在七个独立测试集上平均达到84.3%准确率,显著优于现有方法,为药物靶点发现提供了新工具。
蛋白质是生命活动的执行者,其功能往往通过与其他蛋白质的相互作用(PPIs)实现。准确预测相互作用位点对理解疾病机制和药物开发至关重要。然而,现有预测方法面临两大挑战:传统序列分析方法忽略空间结构信息,而基于实验结构的计算方法又受限于高成本和高分辨率数据的稀缺性。更棘手的是,蛋白质折叠导致序列相邻残基可能在三维空间中相距甚远,这种空间异质性使得仅依赖序列特征的预测准确性受限。
为突破这些限制,浙江大学的研究团队在《Analytical Biochemistry》发表了创新性研究。他们开发的TargetPPI系统首次将图神经网络(GNN)与多尺度特征提取技术相结合,通过整合AlphaFold2预测结构和实验结构数据,构建了包含节点相似性计算的边聚合图注意力网络(EGR-NS)。该系统在七个独立测试集上实现平均准确率84.3%、精确度57.6%和马修斯相关系数(MCC)0.383,性能显著优于现有工具。
关键技术包括:1)采用ProtT5-XL生成768维序列嵌入作为全局特征;2)提取位置特异性评分矩阵(PSSM)等六类局部特征;3)基于PDB文件构建残基距离/角度矩阵作为边特征;4)开发EGR-NS网络增强节点关联;5)使用九模型均值集成策略。测试数据来自Dset_186等七个独立数据集,包含从105个异源二聚体复合物中提取的低同源性序列(<25%)。
【Benchmark data sets】
研究采用七组独立测试集验证性能,其中Dset_186包含186条序列,通过严格去冗余处理确保模型泛化能力。特别引入AlphaFold2预测结构补充实验数据不足,显著扩展了训练样本多样性。
【Improving Performance by Global and Local Features】
对比实验表明,ProtT5特征较传统多序列比对(MSA)特征提升显著:准确率提高2.9%,精确度提升11.4%。结构特征使模型能捕捉残基间的空间约束,如序列不相邻但空间邻近的相互作用位点。EGR-NS通过节点相似性计算有效抑制了噪声特征干扰,较传统图注意力网络(GAT)提升边缘信息利用率。
【Conclusion】
TargetPPI的创新性体现在三方面:首先,首次将节点相似性机制引入PPIs预测,通过EGR-NS网络平衡节点与边缘信息权重;其次,整合实验结构与预测结构数据,突破传统方法对高分辨率结构的依赖;最后,多模型集成策略使预测稳定性提升13.1%。该研究为蛋白质功能注释提供了新范式,其开源代码已发布在GitHub平台。
讨论部分强调,虽然AlphaFold2等结构预测工具大幅扩展了可用数据,但如何有效融合序列与结构信息仍是关键挑战。TargetPPI通过分层特征提取和动态注意力机制,实现了两种信息的优势互补。未来工作将探索将该方法扩展到蛋白质-配体相互作用预测领域,为精准药物设计提供更强大的计算工具。
生物通微信公众号
知名企业招聘