
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于PPI多跳邻域序列化与可解释人工智能的图Transformer蛋白质功能预测方法SEGT-GO
【字体: 大 中 小 】 时间:2025年02月11日 来源:BMC Bioinformatics 2.9
编辑推荐:
本研究针对蛋白质功能预测中远距离蛋白质潜在功能关系难以捕捉的问题,开发了基于PPI网络多跳邻域序列化和可解释人工智能(XAI)的图Transformer方法SEGT-GO。通过创新的序列化编码技术将多跳邻域信息转化为可计算特征,结合SHAP框架优化特征选择,在跨物种大规模数据集上实现了优于DeepGraphGO等现有方法的预测性能,为蛋白质功能注释提供了新工具。
随着高通量测序技术的发展,已知蛋白质序列数量呈爆炸式增长,但通过传统生化方法获得功能注释的比例不足0.002%。这种"序列-功能"注释缺口严重制约了生命科学研究和药物开发。虽然基因本体(GO)数据库已收录超过42,000个功能术语,但现有计算方法在捕捉蛋白质相互作用网络(PPI Network)中远距离蛋白质的功能关联时仍面临挑战——基于图卷积网络(GCN)的方法因过平滑问题难以有效学习多跳邻域信息,而直接应用图Transformer又会遭遇计算复杂度爆炸的瓶颈。
哈尔滨工业大学(威海)计算机科学与技术学院的研究团队在《BMC Bioinformatics》发表的研究中,提出了创新性的SEGT-GO模型。该方法通过矩阵乘法实现PPI网络多跳邻域的离线序列化编码,将K-hop邻域信息转化为可批量处理的token序列;采用Transformer Encoder捕捉远距离蛋白质间的潜在功能关联;引入基于博弈论的SHAP可解释人工智能框架优化41,311维InterPro特征选择。实验表明,该方法在标准数据集上AUPR指标较最优基线提升11.9%(BPO),在人类和小鼠跨物种预测中展现出卓越的泛化能力。
关键技术包括:1)基于归一化邻接矩阵的PPI多跳邻域序列化编码;2)含L层Transformer Encoder的图结构建模;3)SHAP特征重要性评估与过滤(阈值t∈[0,0.6]);4)过渡多层感知机(trans-MLP)实现高维GO术语分类。数据来源于STRING v11.0的PPI网络和UniProtKB序列特征,涵盖51,549个训练蛋白质。
【Serializing the neighborhood of PPI networks】
通过K次左乘归一化邻接矩阵?,将41,311维InterPro特征转化为(K+1)跳邻域序列,时间复杂度控制在O(N(K+1)2dh)。相比GCN的层间信息衰减,该离线编码支持9-hop邻域信息保留。
【Transformer encoder-based encoding】
采用多头自注意力(MSA)机制学习不同跳数token间的功能关联,dh维隐空间映射避免直接处理高维GO术语(MFO达6,640项)。位置感知前馈网络(FFN)增强特征非线性。
【SHAP feature optimization】
SHAP分析揭示特定InterPro特征对GO:0004672(蛋白激酶活性)预测的贡献度呈双峰分布,有效过滤30%噪声特征。热图可视化显示第23,842维特征对GO:0140096预测呈负相关。
【Cross-species validation】
在排除人类蛋白的训练集上,SEGT-GOw/oHuman仍保持0.706的CCO AUPR,证明其捕捉跨物种保守功能模式的能力。小鼠实验显示BPO预测Fmax提升至0.324。
该研究突破性地解决了PPI网络中远距离功能关系建模的难题:1)多跳序列化编码实现计算复杂度与性能的平衡;2)SHAP框架首次系统量化InterPro特征对GO预测的贡献;3)跨物种预测性能为未知蛋白功能注释提供新范式。特别值得注意的是,模型在10-30低频GO术语预测中AUPR达0.651,显著优于DeepGraphGO的0.597,为罕见功能研究奠定基础。研究还发现Transformer层数L对CCO预测效果呈正相关(L=5最优),这可能与细胞组分定位需要更深层次的特征交互有关。这些发现为后续蛋白质功能预测研究提供了重要方法论指导。
生物通微信公众号
知名企业招聘