PLM-Interact:基于蛋白质语言模型的蛋白质相互作用预测新突破

《Nature Communications》:PLM-interact: extending protein language models to predict protein-protein interactions

【字体: 时间:2025年10月28日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对蛋白质相互作用(PPI)预测精度不足的问题,开发了PLM-Interact模型。该模型通过联合编码蛋白质对并引入类似自然语言处理中下一句预测任务的训练策略,在跨物种PPI预测基准测试中达到最优性能,并成功应用于突变效应预测和病毒-宿主相互作用研究,为生物分子相互作用研究提供了新范式。

  
在生命科学领域,蛋白质如同细胞世界的"工作者",通过复杂的相互作用网络执行各种生物学功能。然而,传统实验方法鉴定蛋白质相互作用既耗时又昂贵,使得大规模绘制相互作用图谱面临巨大挑战。随着人工智能技术的发展,蛋白质结构预测已取得突破性进展,但蛋白质相互作用预测仍是一个亟待解决的难题。
现有基于蛋白质语言模型(PLM)的预测方法通常使用预训练的PLM特征集,但忽略了蛋白质之间实际存在的物理相互作用。这种"单打独斗"的策略限制了模型对复杂相互作用模式的理解能力。为了解决这一问题,格拉斯哥大学的研究团队开发了PLM-Interact模型,将蛋白质语言模型的应用范围从单个蛋白质扩展到了相互作用蛋白质对的联合分析。
关键技术方法
研究团队以ESM-2蛋白质语言模型为基础,进行了两项重要改进:首先扩展了模型可处理的序列长度,使其能够同时容纳两个蛋白质的氨基酸残基;其次引入了类似自然语言处理中的"下一句预测"任务,通过二元标签指示蛋白质对是否相互作用。模型训练采用了掩码语言建模和分类任务的混合目标,通过Transformer的注意力机制实现了跨蛋白质的氨基酸关联分析。
研究使用了多个基准数据集进行验证,包括Sledzieski等人构建的跨物种数据集、Bernett等人创建的防泄漏数据集、IntAct突变效应数据集以及病毒-宿主相互作用数据集。所有模型均在严格的交叉验证框架下进行评估,确保了结果的可靠性。
研究结果
PLM-Interact提升预测性能
在跨物种基准测试中,PLM-Interact表现出色。当使用人类数据训练并在小鼠、果蝇、线虫、酵母和大肠杆菌数据上测试时,该模型在AUPR(精确召回曲线下面积)指标上均达到最优性能。特别是在小鼠、果蝇和线虫测试集上,PLM-Interact相比第二好的TUnA模型分别提高了2%、8%和6%的AUPR值。
模型改进的主要原因是其能够更准确识别真正的阳性PPI。分析显示,PLM-Interact在所有测试物种中都为真实阳性PPI分配了更高的相互作用概率。研究人员还展示了五个代表性实例,这些涉及白血病细胞分化、动力蛋白轻链路障、RNA聚合、线粒体蛋白导入和蛋白质转运等重要生物学过程的相互作用,只有PLM-Interact能够正确预测。
微调PLM-Interact可识别突变对相互作用的影响
研究团队进一步探索了模型在预测突变效应方面的应用。他们从IntAct数据库收集了6,979个 annotated突变效应数据,包括增加或减少相互作用强度的突变。通过计算突变体与野生型蛋白质对的预测相互作用概率对数比,成功实现了突变效应的二元分类。
结果显示,未经微调的零样本模型表现接近随机水平,而全面微调的PLM-Interact在AUPR和AUROC指标上分别实现了150%和36%的显著提升。研究团队展示了两个成功预测案例:MCM7蛋白Y600E突变增强与MCM5相互作用的实例,以及Frataxin蛋白N151A突变降低与ISCU相互作用的实例,均与实验观察一致。
改进的病毒-人类PPI预测
在病毒-宿主相互作用预测任务中,PLM-Interact同样表现出竞争优势。基于HPIDB 3.0数据库的22,383个病毒-人类PPI数据,该模型在AUPR、F1和MCC得分上分别比现有的STEP模型提高了5.7%、10.9%和11.9%。研究人员还选取了三对具有实验验证结构的病毒-人类PPI进行案例展示,进一步验证了模型的可靠性。
研究结论与意义
PLM-Interact的成功开发标志着蛋白质语言模型在相互作用预测领域的重要突破。该模型的核心优势在于其能够直接学习蛋白质对之间的关系,而非简单组合单个蛋白质的特征。这种"协同作战"的策略更符合生物系统中蛋白质相互作用的本质特征。
研究结果表明,基于大型语言模型的方法甚至可以超越整合多模态输入的基线模型。虽然TT3D包含了明确的结构信息,Topsy-Turvy整合了网络数据,但PLM-Interact仅凭序列信息就实现了更优性能,这提示序列中蕴含的进化信息可能比我们想象的更为丰富。
在应用前景方面,该技术有望推动相互作用感知的变体效应预测工具发展,为精准医疗提供新思路。对于病毒学研究而言,有效的序列基病毒-宿主PPI预测器可能为传统的宿主物种预测工具提供急需的分子细节,有助于更好地预测人畜共患事件和新型病毒出现的潜力。
然而,研究也指出当前训练数据仍然有限,高质量突变蛋白及其相互作用伙伴的结构数据较少。未来,包含多个蛋白质、结构和核苷酸的长上下文多模态模型可能为相互作用任务提供更专门的解决方案。
这项发表于《Nature Communications》的研究工作不仅开发了一个高效的PPI预测工具,更重要的是展示了注意力机制大型语言模型在理解分子生物学"语言"方面的巨大潜力。随着更多高质量实验数据的积累和算法技术的不断进步,我们有望更深入地解码生命分子间的复杂对话,为人类健康和疾病治疗开辟新的可能性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号