基于微调蛋白质语言模型的Seq2Bind网络服务器:从序列直接预测蛋白质结合位点的新策略
《NAR Genomics and Bioinformatics》:Seq2Bind webserver for binding site prediction from sequences using fine-tuned protein language models
【字体:
大
中
小
】
时间:2025年11月24日
来源:NAR Genomics and Bioinformatics 2.8
编辑推荐:
本研究针对现有蛋白质-蛋白质相互作用(PPI)预测工具依赖三维结构信息的局限性,开发了Seq2Bind网络服务器。研究人员通过微调ProtBERT、ProtT5、ESM2和BiLSTM四种蛋白质语言模型(PLMs),在SKEMPI 2.0数据集上训练出了能够直接从氨基酸序列预测结合亲和力并识别关键结合残基的计算框架。实验结果表明,在N-factor=3时,ESM2和ProtBERT分别实现了67.4%和68.2%的界面残基恢复率,在14个人类健康相关蛋白复合物的独立测试中优于传统的分子对接和突变预测方法。该研究为快速筛选蛋白质相互作用、处理无序蛋白区域提供了新的序列解决方案,对指导靶向治疗具有重要意义。
在细胞的生命活动中,蛋白质之间的相互作用犹如精密的分子舞蹈,调控着基因表达、信号传导等关键生物学过程。然而,传统实验方法解析这些相互作用既耗时又昂贵,而计算预测方法往往严重依赖蛋白质的三维结构信息。这给研究缺乏明确结构的蛋白质(如固有无序蛋白)带来了巨大挑战。近年来,蛋白质语言模型(PLMs)的出现为从序列直接推断蛋白质功能提供了新思路,但如何利用这些模型准确预测蛋白质结合界面残基仍是一个亟待解决的问题。
正是在这样的背景下,爱荷华州立大学的研究团队在《NAR Genomics and Bioinformatics》上发表了题为"Seq2Bind webserver for binding site prediction from sequences using fine-tuned protein language models"的研究论文。他们开发了Seq2Bind这一创新计算平台,通过微调蛋白质语言模型,实现了仅从氨基酸序列就能预测蛋白质结合亲和力和识别关键结合残基的目标。
研究人员采用了几个关键技术方法:基于SKEMPI 2.0数据库的6063个异源二聚体蛋白对进行模型训练和验证;使用ProtBERT、ProtT5、ESM2和BiLSTM四种模型架构进行微调比较;通过系统性丙氨酸扫描突变分析评估模型性能;采用N-factor评估指标(考虑top N×n个预测位置,其中n为真实界面残基数);与HADDOCK3等分子对接方法和五种现有PPI突变预测工具进行基准测试。
研究团队首先在SKEMPI 2.0突变数据集上对四种模型进行了微调。训练和验证损失曲线显示,ProtBERT在5个周期内收敛,而ProtT5仅需2个周期即可收敛。验证平均绝对误差(MAE)表明所有架构都实现了较低的预测误差,证明微调模型能够有效捕捉蛋白质-蛋白质结合亲和力。考虑到SKEMPI 2.0数据集中大多数实验结合得分落在5-15 kcal/mol范围内,相对较小的MAE值表明模型校准良好,能够捕捉蛋白质相互作用强度的有意义的生物物理变化。
在包含6063个蛋白质对的评估集上,模型性能随着考虑的top N预测数量的增加而持续改善。在N=1时,ESM、LSTM、ProtBERT和T5的成功率分别为37.1%、34.4%、35.9%和35.9%;在N=2时,分别上升至56.3%、53.6%、56.8%和55.0%;在N=3时,进一步增加至67.4%、64.7%、68.2%和66.1%。提高"N因子"(每个位置考虑的候选残基数量)可带来显著改进,从N因子1增加到3使ESM2的准确率提高了30%以上。
在14个人类健康相关蛋白复合物的独立测试中,Seq2Bind在较高的上下文深度(N-factor=3)下 consistently优于其他方法。即使在中等上下文(N-factor=2)下,基于序列的语言模型也超过了经典对接方法:ESM(37.2%)和ProtBERT(35.1%)的界面恢复率均高于HADDOCK3盲对接(32.1%)。相比之下,突变预测基线的成功率在所有N因子下都较低,五种方法(DDMut-PPI、SAAMBE-3D、mCSM-PPI2、SAAMBE-SEQ和MutationExplorer)都落后于Seq2Bind和HADDOCK。
研究发现预测性能在不同蛋白质复合物之间存在显著异质性。如4UDT和8EJM等复合物始终显示出较高的正确识别界面残基数量,而6UZK和7WBP等复合物则表现较差。增加N因子导致正确预测显著增加,特别是在较严格阈值下未能识别任何正确残基的模型能够成功捕捉真实阳性位点。不同模型的相对贡献也因具体复合物而异,表明没有单一的patch size对所有复合物都是最优的。
对涉及特定键类型的残基恢复率分析发现,氢键残基的恢复率 consistently较低(11.5%-19.5%),尽管氢键是已识别的非范德华相互作用中最大的类别(N=87)。这表明仅从序列识别氢键伴侣对这些零样本模型构成了重大挑战。对于较罕见的相互作用类型(离子键、π-阳离子、π-π堆积、二硫键),由于地面真实实例数量较少(N在2-15范围内),限制了对模型特定优势或劣势的可靠解释。
核心数据集包含约760万个丙氨酸扫描预测,四种模型各贡献约190万个预测。ESM2和ProtBERT表现出相对较高的预测不稳定突变率(46.7%和58.1%)以及稳定率(32.9%和36.3%)。T5显示出相当的稳定率(37.6%)但较低的不稳定率(42.9%),而LSTM对稳定(3.6%)和不稳定(0.3%)突变的检测率都极低。这些发现揭示了预测突变效应方面模型特定的敏感性差异。
尽管蛋白质语言模型在建模蛋白质-蛋白质相互作用方面的实用性日益增长,但研究发现其在通过微调可靠识别残基水平相互作用位点方面存在关键限制。虽然ProtBERT、ProtT5和ESM2在结合亲和力数据上微调后对全局结合强度表现出强大的预测准确性,但在不同蛋白质复合物中精确定位相互作用界面的性能仍然不一致。特别是氢键接触的恢复率在所有模型中都很低,表明单点突变引入了细微的序列扰动,蛋白质语言模型难以将这些扰动与局部结构或能量破坏联系起来。
研究发现增加N因子(从而考虑更多top排名预测)显著提高了蛋白质语言模型识别已知界面残基的成功率。因此,模型选择和阈值调整对下游应用至关重要。随着更高N因子而增加的唯一正确预测数量证实了扩大预测阈值有效捕获了更多不同的真实阳性界面位点,提供了更全面的预测相互作用表面图。
分析还发现,四个模型预测的top残基(不属于地面真实值)与真实界面区域存在显著的空间分散。对14个复合物的预测残基与最近真实界面残基之间的距离计算显示极性接触占主导地位,表明静电相互作用起关键作用。虽然许多预测残基缺乏直接界面接触,但它们可能代表通过长程效应影响结合变构网络的组成部分。
Seq2Bind代表了一种有前景的序列中心替代方案,可用于蛋白质-蛋白质相互作用界面预测。该方法在结合亲和力预测和残基水平界面识别方面都表现出强大性能,超越了传统基于结构和基于突变的方法。虽然存在识别特定化学相互作用(如氢键)的局限性,但该方法为快速筛选蛋白质相互作用、处理无序蛋白区域以及指导实验工作提供了宝贵工具。随着蛋白质语言模型的不断发展和对蛋白质序列-结构-功能关系的理解加深,像Seq2Bind这样的序列方法有望在计算结构生物学和药物发现中发挥越来越重要的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号