PPISHES——一种利用图神经网络预测蛋白质相互作用位点的改进物理化学方法

《Protein Science》:PPISHES—an enhanced physicochemical approach for predicting protein interaction sites using graph neural networks

【字体: 时间:2025年10月30日 来源:Protein Science 5.2

编辑推荐:

  提出基于溶剂可及表面积、氢键倾向和静电势的PPISHES模型,通过整合物理化学特性提升蛋白质相互作用位点预测的准确性,在测试集上AUPRC分别提高42.8%和29.3%,显著优于现有方法。

  蛋白质相互作用位点的准确预测对于理解生物过程、构建蛋白质相互作用网络以及解析蛋白质功能具有重要意义。尽管已有许多方法致力于捕捉蛋白质的结构、进化和序列特征,但它们往往忽略了重要的物理化学特性,从而限制了预测效果。为了解决这一问题,我们提出了一种新的模型——基于溶剂可及表面积(SASA)、氢键倾向(HBP)和静电势(EP)的蛋白质相互作用位点预测模型(PPISHES),通过整合这三种关键的物理化学特征,显著提升了模型在预测蛋白质相互作用位点方面的性能。该模型在两个独立测试集Test_315和Test_71中分别实现了42.8%和29.3%的AUPRC(Area Under the Precision-Recall Curve)提升,并在其他关键指标如Recall、AUC(Area Under the Curve)和Matthews Correlation Coefficient(MCC)上也优于当前最先进的方法。

### 蛋白质相互作用位点预测的重要性

蛋白质之间的相互作用是生命活动中不可或缺的一部分,从细胞信号传导到免疫反应,许多生物学过程都依赖于蛋白质之间的动态相互作用。然而,实验方法如酵母双杂交、荧光共振能量转移(FRET)等虽然能够识别相互作用位点,但往往需要大量的时间和资源,且在复杂系统中可能受到多种因素的干扰。因此,开发高效、准确的计算方法对于研究蛋白质相互作用具有重要意义。

蛋白质相互作用可以分为两种类型:强制性(obligate)和非强制性(non-obligate)。强制性相互作用涉及的蛋白质结构和功能高度依赖,这些蛋白质无法独立存在。而非强制性相互作用则是短暂的,并且在没有相互作用的情况下也能保持稳定的结构。因此,针对不同类型的相互作用,需要不同的预测策略和模型设计。

### 传统方法的局限性

在过去二十年中,研究人员采用了许多传统技术来预测蛋白质相互作用位点。这些方法包括基于序列的预测方法,如PISVER和DELPHI,以及基于结构的预测方法,如DeepPPISP、GraphPPIS和RGCNPPIS。然而,这些方法在某些方面存在不足。例如,基于序列的方法通常在准确性上不如基于结构的方法,而基于结构的方法虽然具有更高的精度,但受限于实验结构的可获得性,仅有大约50%的蛋白质数据银行(PDB)中的条目代表蛋白质复合物。

此外,许多基于图神经网络(GNN)的方法,如GraphPPIS和RGCNPPIS,虽然能够整合全局和局部的结构信息,但它们在捕捉物理化学特性方面存在局限。例如,RGCNPPIS虽然结合了七个节点特征,并利用了GraphSAGE进行局部特征提取,但并未考虑静电势、氢键倾向等关键的物理化学特性。此外,它在处理特征冗余和优先级方面也存在不足,导致难以进一步优化模型性能。

### 新方法PPISHES的创新点

为了弥补这些方法的不足,我们提出了PPISHES模型,该模型将静电势、氢键倾向和溶剂可及表面积作为核心特征,整合到基于图卷积网络(GCN)的框架中。PPISHES通过引入这些物理化学特性,显著提升了模型在不同蛋白质复合物类型上的预测能力。

#### 静电势(Electrostatic Potential)

静电势是蛋白质相互作用的重要因素之一,尤其在涉及带电分子之间的相互作用时更为关键。通过计算静电势,可以更好地理解蛋白质在溶液中的相互作用机制。PPISHES利用PDB2PQR和APBS等软件包来计算静电势,并将其作为模型的一个重要输入特征。这一特征不仅有助于识别蛋白质之间的静电互补性,还能提供关于分子稳定性的重要信息。

#### 氢键倾向(Hydrogen-bonding Propensity)

氢键是蛋白质结构稳定性和功能实现的重要非共价相互作用之一。PPISHES通过分析每种氨基酸残基的供体和受体原子之间的距离,计算出氢键倾向。这种方法能够提供关于蛋白质内部氢键形成概率的定量信息,从而帮助模型更好地理解蛋白质的局部结构特性。

#### 溶剂可及表面积(Solvent Accessible Surface Area)

溶剂可及表面积(SASA)是衡量蛋白质残基暴露程度的重要参数。PPISHES利用SASA来识别哪些残基可能参与相互作用。SASA的计算基于将探针球滚动在蛋白质的范德华表面上,从而确定哪些区域更容易与溶剂接触。这一特征对于理解蛋白质的表面特性及其在相互作用中的作用至关重要。

### 模型构建与特征工程

PPISHES的模型构建基于图结构,其中蛋白质被建模为一个无向图,每个节点代表一个氨基酸残基,边则表示残基之间的距离。通过GCN和GraphSAGE模块,PPISHES能够同时提取全局和局部的结构信息,从而创建出更加丰富的特征表示。这种结合不仅提升了模型的预测能力,还增强了其对蛋白质相互作用位点的识别精度。

在特征工程方面,PPISHES采用了多种方法,包括基于序列的特征、进化信息、结构信息以及物理化学特性。例如,使用ProtVec1D嵌入向量来捕捉序列信息,结合PSSM(Position-Specific Scoring Matrix)和HMM(Hidden Markov Model)来获取进化信息,以及使用DSSP(Dictionary of Secondary Structure of Proteins)来提取二级结构特征。此外,SASA、EP和HBP等物理化学特征也被整合到模型中,以提供更全面的蛋白质结构信息。

### 模型验证与性能评估

为了确保模型的性能,PPISHES在训练过程中采用了五折交叉验证,并在独立测试集上进行了评估。测试集包括Test_71和Test_315,分别代表不同类型的蛋白质复合物。Test_71主要包含短暂的相互作用位点,而Test_315则包含稳定的、强制性的相互作用位点。

PPISHES在Test_71上取得了显著的提升,达到了90.2%的二元准确率,相比其他方法如RGCNPPIS提升了11.4%。此外,在Test_315上,PPISHES的准确率达到了93.7%,在多个评估指标上均优于现有方法。这些结果表明,PPISHES在预测蛋白质相互作用位点方面具有较高的鲁棒性和有效性。

### 特征重要性分析

为了进一步理解各特征对模型性能的贡献,我们进行了特征消融实验。结果显示,SASA对模型性能的影响最为显著,当将其排除时,AUPRC下降了29.58%。这表明SASA在模型的预测过程中起到了关键作用。相比之下,其他特征如EP和RAA(Relative Accessibility Annotation)对模型的影响较小,而Pro2Vec、PSAIA、PSSM和DSSP等特征则对模型性能有一定的贡献,但不如SASA显著。

这些特征的重要性分析不仅有助于模型的优化,还为后续研究提供了方向。例如,通过了解哪些特征对模型的性能影响最大,可以更有效地设计新的特征提取方法,或者调整模型结构以更好地利用这些特征。

### 生物学意义与未来方向

PPISHES模型的成功不仅在于其在预测蛋白质相互作用位点方面的准确性和鲁棒性,还在于它能够提供关于蛋白质相互作用的生物学见解。通过分析不同类型的相互作用,如强制性和非强制性复合物,PPISHES展示了其在识别不同结构特性的能力。虽然在非强制性复合物上,模型的准确率更高,但在强制性复合物上,其精度和召回率更优,这可能与强制性复合物的结构稳定性有关。

未来的研究可以进一步探索如何引入动态结构特征,以提高对短暂相互作用的预测能力。此外,PPISHES还可以与更先进的深度学习架构相结合,以进一步提升其预测性能和解释能力。通过不断优化模型,我们有望在蛋白质相互作用研究领域取得更大的突破。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号