PPAC:利用蛋白质大型语言模型预测氨基酸突变引起的蛋白质-蛋白质亲和力变化
《ACS Omega》:PPAC: Predicting Protein–Protein Affinity Changes Induced by Amino Acid Mutations Using Protein Large Language Models
【字体:
大
中
小
】
时间:2025年11月10日
来源:ACS Omega 4.3
编辑推荐:
蛋白质-蛋白质结合自由能变化预测研究提出基于大语言模型(PLM)的方法PPAC,通过整合Esm2、ESMC和ProtT5生成的序列特征,采用ANN架构与七种模型对比,在SKEMPI-Single和BindingGYM-Single数据集上RMSE达0.732,PCC达0.860,显著优于传统方法。案例验证显示在IL-4/IL-4Rα和SARS-CoV-2/ACE2复合体中,PPAC对关键突变识别准确率提升,Hits@3指标达0.67。
蛋白质-蛋白质相互作用(PPIs)是细胞内复杂分子通信网络的重要组成部分,对于维持细胞稳态、调控代谢通路、传递信号、控制细胞周期以及协调免疫反应等关键生物学过程具有重要作用。这些相互作用的紊乱与多种疾病的发生和进展密切相关,例如癌症、神经退行性疾病和自身免疫性疾病。由于PPIs的复杂性,传统实验方法在研究突变对相互作用的影响时存在诸多限制,包括耗时、人力密集以及高昂的费用。因此,开发高效的计算方法以预测突变对PPI结合自由能的影响,成为推动药物设计和功能生物学研究的重要方向。
近年来,随着计算生物学的发展,研究者们开始利用计算模拟和机器学习技术来深入理解PPIs的分子机制。特别是基于蛋白质序列的预训练语言模型(PLMs)在这一领域展现出巨大的潜力。PLMs能够从大规模蛋白质数据库中学习到丰富的序列信息,并通过自监督任务对蛋白质序列进行建模,从而提取出具有高度代表性的特征向量。这些特征向量不仅能够捕捉氨基酸之间的相互作用,还能够隐含地表达蛋白质的结构和功能信息。通过引入注意力机制,PLMs能够关注蛋白质序列中与结合亲和力相关的特定位置,从而弥补传统方法在空间关系建模方面的不足。
在本研究中,我们提出了一种新的方法PPAC,利用PLMs对野生型和突变型蛋白质进行表征,从而实现对突变影响的准确预测。我们选取了三种先进的PLMs——Esm2、EsmC和ProtT5,分别生成了不同维度的蛋白质表示,即2560维、1152维和1024维。随后,我们将这些特征输入到七种不同的模型架构中,并通过严格的5折交叉验证筛选出最优的模型和特征组合。最终,我们基于一个大规模的数据集进行了模型训练,结果表明PPAC方法在预测性能上显著优于传统方法,达到了当前最先进的水平。
PPAC模型在包含9558个数据点的测试集上进行了评估,并应用于两个具体案例研究中。实验结果表明,该模型不仅能够提供高精度的预测,还能有效识别对蛋白质相互作用至关重要的关键残基,突显了其在蛋白质相互作用建模中的高效性和实用性。通过比较PPAC与其他方法的性能,我们发现其在多个指标上表现优异,例如在RMSE和PCC(皮尔逊相关系数)上的表现,以及在Hits@k评估中的排名。这些结果进一步验证了PPAC模型的泛化能力和鲁棒性。
在数据集的选择方面,本研究利用了SKEMPI 1.0和SKEMPI 2.0数据库,这些数据库包含了关于蛋白质突变对热力学和动力学参数影响的实验数据。SKEMPI 1.0提供了114个蛋白质复合物的非冗余界面突变数据,包括1131个单点突变和195个双点突变。而SKEMPI 2.0则是一个更新版本,涵盖了345个复合物的7085个单点或多重突变数据。此外,我们还从BindingGYM数据库中筛选出31772个单点突变数据点,通过去除与训练集相似度超过25%的数据,最终保留了9558个数据点作为BindingGYM-Single数据集。这些数据集的多样性确保了模型在不同场景下的适用性和泛化能力。
在模型构建过程中,我们采用了多种机器学习和深度学习算法,包括五种传统机器学习方法(GBRT、SVM、RF、DT、KNN)和两种深度学习方法(CNN和ANN)。通过在S1131数据集上进行交叉验证,我们发现Esm特征在RMSE和PCC上均优于Prot和ESMC特征,而ANN在所有特征表示中表现最佳。这表明,采用简化框架处理PLMs生成的序列特征不仅能够有效避免过拟合,还能保留ESM-2模型中编码的核心生物学信息,从而提升预测性能并保持计算效率。在后续的训练中,我们进一步优化了模型参数,并在SKEMPI-Single数据集上进行了5折交叉验证,结果表明PPAC在RMSE和PCC指标上均优于现有的多种方法,例如Rosetta、flex ddG、ESM-1v、ESM-IF、ESM2、DDGPred、RDE-Net、DiffAffinity和DDAffinity。
为了更全面地评估PPAC模型的性能,我们还采用了严格的Topnettree方法进行留一复合物交叉验证(LOCO)。这种方法能够有效测试模型在不同蛋白质复合物上的预测能力,从而评估其在多样化目标中的适用性。结果显示,PPAC在PCC上的平均值为0.573,中位数为0.541,这表明其在不同结构背景下的预测性能稳定且可靠。此外,PPAC在BindingGYM-Single数据集上的表现进一步验证了其在低相似度数据上的泛化能力,PCC值达到0.0138,显著优于其他模型,如GeoPPI(PCC为0.0102)、DiffAffinity(PCC为0.0054)和ddG_predict(PCC为?0.0251)。这一结果不仅展示了PPAC模型的高预测精度,还表明其在处理新数据时具有良好的鲁棒性。
在实际应用中,PPAC模型被用于两个具体的案例研究,分别是免疫相关研究中的IL-4/IL-4Rα复合物和病毒相关研究中的SARS-CoV-2/ACE2复合物。在IL-4/IL-4Rα案例中,PPAC在PCC指标上表现最佳,达到了0.55,显著优于其他方法。进一步分析表明,BY13A突变是敏感位点之一,其实验测得的ΔΔG值为5.22 kcal/mol,而PPAC预测的值为4.21 kcal/mol,与实验结果的偏差最小。相比之下,其他模型如GeoPPI、ddG_predict、SAAFEC-Seq和DiffAffinity的预测值分别为1.46、0.18、1.56和1.35 kcal/mol,均与实验数据存在较大差异。此外,在Hits@k评估中(k=3),PPAC与其他模型如GeoPPI和SAAFEC-Seq一起达到了0.67的得分,意味着在前三名预测中,有两项是具有益处的突变,而ddG_predict和DiffAffinity的得分仅为0.33,表明PPAC在识别有益突变方面具有更高的精度和可靠性。
在SARS-CoV-2/ACE2案例中,PPAC同样表现出色。S19P突变是影响病毒与宿主细胞结合能力的关键位点之一,其实验测得的ΔΔG值为?0.18 kcal/mol,而PPAC预测的值为?0.18 kcal/mol,与实验数据高度一致。通过对所有S19突变的排序分析,PPAC和ddG_predict均将S19P列在前三名,其中PPAC将其列为最具影响力的突变,与实验结果一致。而其他模型则未能准确预测这一突变的影响,进一步证明了PPAC在识别敏感位点方面的优越性。
PPAC模型的成功不仅在于其高精度的预测能力,还在于其在不同数据集上的广泛应用。通过结合PLMs的序列表示和多样的机器学习算法,PPAC能够在不依赖高分辨率结构数据的情况下,实现对蛋白质结合亲和力变化的准确预测。这一特性使其在实际应用中具有更大的灵活性和适应性,特别是在缺乏结构信息的场景下。此外,PPAC的模型结构简洁,计算效率高,这有助于在大规模数据处理中实现更快的预测速度。
尽管PPAC模型表现优异,但仍有改进空间。首先,可以考虑将序列特征与结构信息相结合,例如通过整合AlphaFold等结构预测方法提供的原子距离和界面相互作用数据,以进一步提升模型的预测能力。其次,目前PPAC主要针对单点突变进行预测,但实际生物系统中,多点突变更为常见,且其影响往往具有非加性特征,这给预测带来了挑战。因此,未来的研究可以探索如何扩展PPAC框架以处理多点突变,从而更好地模拟突变对蛋白质相互作用的复杂影响。最后,模型的可解释性也是一个重要的研究方向。通过分析模型嵌入所捕捉的生物学信息,可以更深入地理解突变对结合亲和力的具体影响机制,从而为药物设计和功能生物学研究提供理论支持。
总的来说,PPAC模型为预测蛋白质突变对结合亲和力的影响提供了一种高效、准确且具有广泛适用性的方法。其在多个数据集上的卓越表现,以及在实际案例中的成功应用,表明该模型在药物开发和疾病机制研究中具有重要的科学价值和应用前景。未来,随着计算生物学和人工智能技术的不断发展,PPAC模型有望进一步优化,以应对更复杂的生物问题,如多点突变的影响分析、结构信息的整合以及模型可解释性的提升。这些改进将有助于推动蛋白质相互作用研究的深入发展,并为相关领域的科学研究和实际应用提供更强大的工具支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号