基于重构蛋白质生成模型的通用可扩展蛋白质稳定性预测新方法SPURS

《Nature Communications》:Generalizable and scalable protein stability prediction with rewired protein generative models

【字体: 时间:2025年12月21日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对蛋白质稳定性预测中数据稀缺和模型泛化能力不足的问题,开发了名为SPURS的深度学习框架。该研究通过创新的神经网络重构策略,将基于序列的蛋白质语言模型(ESM2)和基于结构的逆向折叠模型(ProteinMPNN)有效整合,在大规模热稳定性数据(Megascale)上进行微调。结果表明,SPURS在12个独立测试集上均优于现有方法,实现了对未知蛋白质和突变的准确、高效稳定性预测(△△G),并成功应用于功能位点识别、蛋白质适应性预测和疾病致病性分析,为蛋白质工程和功能基因组学提供了强大工具。

  
蛋白质是生命活动的执行者,其稳定性决定了蛋白质能否正确折叠并行使功能。在生物医药和工业酶制剂等领域,设计具有增强稳定性的蛋白质具有重要意义。然而,准确预测氨基酸突变对蛋白质稳定性的影响(通常用量化指标△△G表示)一直是计算生物学领域的重大挑战。传统实验方法如定向进化耗时耗力,而现有计算方法往往受限于训练数据规模小、模型泛化能力弱等问题,特别是在预测稳定化突变和处理未知蛋白质方面表现不佳。
近年来,蛋白质生成模型(包括从海量序列数据中学习的蛋白质语言模型pLM和从结构数据中学习的逆向折叠模型IFM)展现出无需特定任务训练即可预测蛋白质特性的“零样本”能力。然而,如何将这些模型的优势有机结合,并用于高精度的蛋白质稳定性预测,仍是一个悬而未决的问题。在此背景下,佐治亚理工学院的研究团队在《Nature Communications》上发表了题为“Generalizable and scalable protein stability prediction with rewired protein generative models”的研究论文,提出了名为SPURS的创新深度学习框架,成功解决了上述难题。
主要技术方法
本研究核心是SPURS框架,其关键技术包括:1)采用Adapter模块的神经网络重构策略,将ProteinMPNN的结构特征嵌入到ESM2的序列特征中,实现多模态融合;2)利用Megascale数据集(包含超过77万个△△G测量值)进行监督微调;3)设计高效预测模块,单次前向传播即可预测蛋白质所有可能的点突变稳定性;4)扩展模型以预测高阶突变的非加性(上位性)效应;5)结合AlphaFold2预测结构,确保方法广泛适用性。评估使用12个独立数据集,涵盖热稳定性变化(△△G)和熔解温度变化(△Tm)测量。
SPURS实现准确且可推广的蛋白质稳定性预测
研究人员在包含28,312个突变的Megascale测试集上评估SPURS,其斯皮尔曼相关系数中位数达到0.83,显著优于当前最先进方法ThermoMPNN(0.77)。在另外8个独立测试集上,SPURS在7个数据集上表现显著更优,在其余数据集上表现相当。特别值得注意的是,尽管SPURS仅使用△△G数据训练,它在预测熔解温度变化(△Tm)的数据集上也表现出色,显示了其捕捉稳定性相关特征的广泛能力。
对于高阶突变预测,SPURS在Megascale测试集的双突变数据上超越了DDGun和MutateEverything等专门方法。重要的是,SPURS显著优于仅通过简单加和单突变效应来预测双突变的方法,表明其成功建模了突变间的上位性效应。
稳定化突变对蛋白质工程至关重要,但在数据集中通常占比很低。SPURS在从大量去稳定化突变中识别稳定化突变(△△G < -0.5 kcal/mol)方面表现出更高精度和召回率。在包含56万多个人类错义变异的Domainome数据集上,SPURS与实验测量的蛋白质丰度相关性达到0.54,显著优于ThermoMPNN(0.49),进一步证明了其在大规模变异效应景观中的泛化能力。
SPURS识别蛋白质中的功能位点
蛋白质功能通常通过与其他分子的相互作用实现,识别负责这些相互作用的残基是关键挑战。研究人员将SPURS的稳定性预测与ESM1v预测的进化适应度相结合,通过拟合稳定性与适应度之间的非线性关系,计算每个位点的功能得分。在239个具有保守域数据库(CDD)功能位点注释的蛋白质上,SPURS的功能得分显著区分了功能位点与非功能位点,平均AUROC达到0.69。
案例分析显示,SPURS准确识别了不同蛋白质域中的关键功能位点:在LIM域中特异性识别锌指结构的锌配位残基;在SH3域中准确捕捉关键的肽结合位点;在酒精脱氢酶中成功鉴定锌结合残基(C46、H62、C174)和关键氢键形成残基(S48)。值得注意的是,尽管仅使用单链输入训练,SPURS仍能识别相互作用界面,如SAM域的异源二聚体界面和MBD域的DNA结合位点。对两个含有PDZ域的蛋白质分析显示,SPURS既能识别跨蛋白质保守的功能位点,也能捕捉与特定配体相互作用相关的环境特异性位点。
SPURS提升低数据量蛋白质适应度预测
蛋白质需要结构稳定才能行使功能,研究人员假设SPURS的稳定性预测可为蛋白质适应度预测提供信息先验。他们扩展了先进的低数据量适应度预测模型“增强模型”,将SPURS的△△G预测作为额外特征。在12个蛋白质的适应度数据上,SPURS增强模型在大多数蛋白质上优于原模型,斯皮尔曼相关系数提高7%。在ProteinGym基准的141个深度突变扫描(DMS)数据集上(排除稳定性测量集),SPURS增强的DeepSequence模型在115个(82%)案例中优于原始增强模型,整体斯皮尔曼相关系数提高15%。在表达(24.1%)和机体适应度(16.5%)类别中改进尤为显著。这种改进在不同训练集大小(从48个变异到数据集80%的序列)下保持一致。
SPURS揭示稳定性对致病性的贡献
研究人员应用SPURS预测人类蛋白质组中所有可能的单氨基酸替换(约1.79亿个变异)的△△G。对具有临床注释的变异分析显示,致病性变异更倾向于去稳定化:68%的致病性变异是去稳定化的(△△G > +0.5 kcal/mol),而良性变异中只有19%。按结构环境分层分析发现,致病性变异在折叠区域比在固有无序区域(IDR)更具去稳定性;在埋藏残基中,致病性变异的去稳定效应比在暴露残基中更明显。
结合相对溶剂可及表面积(rSASA),研究人员发现致病性变异在同时具有高△△G值和低rSASA得分的区域富集。通过线性插值△△G和rSASA构建的无监督预测器,在α=0.7时达到最大AUROC为0.84,优于单独使用任一特征的模型。
对遗传模式的分析显示,常染色体隐性(AR)疾病相关基因中的致病性变异比常染色体显性(AD)疾病相关基因中的变异更具去稳定性。对癌症相关突变的分析发现,肿瘤抑制基因(如TP53、PTEN、VHL)的癌症突变倾向于选择破坏结构的突变(正△△G差异),而原癌基因(如TERT、ACKR3、PIK3CA)的突变则倾向于避免去稳定化(负△△G差异),这与肿瘤发生中肿瘤抑制基因通过功能丧失而原癌基因通过功能获得发挥作用的机制一致。
研究结论与意义
SPURS框架通过创新的模型重构策略,成功整合了序列和结构两种蛋白质生成模型的优势,实现了准确、高效且可扩展的蛋白质稳定性预测。其强泛化能力源于大规模训练数据和精心设计的神经网络架构。除了卓越的稳定性预测性能外,SPURS在功能位点识别、蛋白质适应度预测和疾病致病性分析等方面的广泛应用,展示了其作为蛋白质信息学多功能工具的潜力。
该研究的实际优势在于其计算效率——通过表征共享,SPURS可在单次前向传播中预测蛋白质所有单点突变的△△G,使蛋白质组规模的稳定性分析成为可能(例如,在单个GPU上30分钟内完成人类蛋白质组的位点饱和突变分析)。展望未来,SPURS可作为预测未知蛋白质和突变稳定性变化的通用预训练模型,与现有变异效应预测器结合改进变异解释,或作为指导生成式AI模型设计稳定性增强蛋白质的奖励模型。这些广泛应用确立了SPURS作为加速蛋白质工程和促进治疗设计的重要工具地位。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号