牛胰蛋白酶抑制剂(BPTI)–胰凝乳蛋白酶(chymotrypsin)复合物结合亲和力和上位性(epistasis)的机器学习预测

《Protein Science》:Machine-learning prediction of affinity and epistasis in the bovine pancreatic trypsin inhibitor–chymotrypsin complex

【字体: 时间:2026年06月09日 来源:Protein Science 5.2

编辑推荐:

  摘要:蛋白质-蛋白质相互作用(PPIs)受进化压力塑造,这些压力微调结合亲和力并驱动支持功能结果的上位性(epistasis)关系。本研究以牛胰蛋白酶抑制剂(BPTI)与胰凝乳蛋白酶(chymotrypsin)的复合物为模型系统,研究单一位点或双位点突变如何影

  
摘要:蛋白质-蛋白质相互作用(PPIs)受进化压力塑造,这些压力微调结合亲和力并驱动支持功能结果的上位性(epistasis)关系。本研究以牛胰蛋白酶抑制剂(BPTI)与胰凝乳蛋白酶(chymotrypsin)的复合物为模型系统,研究单一位点或双位点突变如何影响结合亲和力及上位性。研究人员结合从BPTI饱和扫描突变(saturation scanning mutagenesis)文库获得的深度测序数据与一个机器学习(ML)模型,来预测BPTI–胰凝乳蛋白酶复合物的结合亲和力景观。利用该ML模型(以部分实验结合数据为训练集),研究人员预测了数千种单突变和双突变BPTI变体(包括文库中未观察到的变体)的结合亲和力及上位性相互作用。该预测方法补全了缺失数据点,使研究人员能够揭示特定结合界面位点内亲和力变化及突变耦合(coupling)的整体趋势。分析表明,同一位置的不同突变对亲和力影响不同,大多数双突变导致上位性增强(尤其在热点(hotspot)位置),表明存在协同结合效应。多数情况下亲和力与上位性呈负相关——双突变变体亲和力增强与负上位性(negative epistasis)相关联。该方法可推广至更大组合文库及缺乏结构信息的蛋白质的突变效应预测。
论文解读——牛胰蛋白酶抑制剂(BPTI)–胰凝乳蛋白酶复合物亲和力及上位性的机器学习预测
研究背景与意义
蛋白质-蛋白质相互作用(PPIs)是信号转导、免疫识别等生物学过程的核心,其结合界面关键残基的突变可显著改变结合亲和力(ΔΔGbind)。界面中存在对结合至关重要的"热点(hotspot)"位点和可用于亲和力优化的"冷点(coldspot)"位点,且多位点突变间存在上位性(epistasis,即双突变效应偏离单突变加和性的现象),这增加了蛋白质设计的复杂性。传统高通量深度突变扫描(DMS)结合高通量测序(HTS)虽可绘制结合景观,但因组合爆炸无法穷举所有双突变变体(本研究中理论双突变达23826种,实际文库覆盖率仅14%–67%)。已有研究限于部分双突变观察,难以完整揭示上位性规律。Heyne等人(2021)曾构建BPTI(牛胰蛋白酶抑制剂,bovine pancreatic trypsin inhibitor,12个界面位置单/双突变文库并与胰凝乳蛋白酶(chymotrypsin)互作,但约半数双突变变体缺失。本研究由Yaron Orenstein、Noam Tzuri、Niv Papo等团队合作完成,发表于《Protein Science》,旨在通过机器学习补全BPTI–胰凝乳蛋白酶体系的全双突变结合亲和力景观及上位性图谱,深化对PPI突变耦合机制的理解。
主要关键技术方法
研究人员重新分析Heyne等(2021)已发表的BPTI单/双突变文库酵母表面展示–流式分选–HTS数据(四个亲和力门:高亲和力HI、野生型WT、稍低SL、低亲和力LO及预分选库),计算各变体富集比(ER)及log2ER;以12个界面位置的一热编码(one-hot encoding)拼接ESM2蛋白语言模型嵌入(averaged ESM2 640-dim embeddings)为输入特征,分别训练四个全连接神经网络(NN,3–5层,ReLU激活)预测各门的log2ER值;基于27个文献中单突变ΔΔGbind实验值建立四门log2ER到ΔΔGbind的线性回归转换公式;用模型直接预测所有单/双突变变体的ΔΔGbind,上位性ε定义为ε = ΔΔGbind,i+ ΔΔGbind,j? ΔΔGbind,ij;通过留出验证、位置逐一剔除(position-wise holdout)及与加和基线比较评估模型性能。
研究结果
2.1 Re-processing BPTI–chymotrypsin deep mutational scanning data(BPTI–胰凝乳蛋白酶深度突变扫描数据的再处理)
研究人员过滤HTS原始序列(去除无引序列、过短、含非ATCG字符及12个预定位置外突变的序列),成功回收HI/WT/SL/LO门及预分选库各25–48万条氨基酸序列,计算各变体在各门的log2ER值,作为后续ML标签。
2.2 Training our models to predict the affinity of BPTI variants(训练预测BPTI变体亲和力的模型)
228种理论单突变观察到93.4%–100%,23826种理论双突变仅观察到14.2%–66.2%(依门而异)。以单/双突变变体及其log2ER为标签,分别训练四门NN模型。超参数搜索显示混合输入(one-hot + ESM2平均嵌入)最优。在各自测试集上皮尔逊相关系数:HI门R=0.861,WT门R=0.650,SL门R=0.750,LO门R=0.803。重新用90%数据训练后测试集R分别为0.885(HI)、0.686(WT)、0.802(SL)、0.837(LO)。
2.2.2 Evaluating the prediction of absolute binding affinities(绝对结合亲和力预测能力的评估)
排除27个文献单突变ΔΔGbind值后,四门预测log2ER与实验ΔΔGbind绝对相关系数分别为HI R=0.774、WT R=0.526、SL R=0.064、LO R=0.832;10个双突变排除后对应为HI R=0.808、WT R=0.834、SL R=0.175、LO R=0.851。HI和LO门模型与纯化蛋白实验数据吻合最佳。
2.3 Integrating affinity-gate predictions to estimate ΔΔGbind(整合亲和力门预测以估算ΔΔGbind
将四门预测log2ER通过线性回归拟合27个已知ΔΔGbind单突变得转换方程,合并四门预测较单门提升相关性(单突变R=0.914 vs HI单独0.774/LO单独0.832;双突变R=0.910 vs 单独最高0.851)。直接预测双突变ΔΔGbind与加和基线比较(bootstrap抽样):直接预测R=0.930±0.014,加和基线R=0.874±0.040,直接模型略优。
2.4 Binding affinity landscape of the BPTI–chymotrypsin complex(BPTI–胰凝乳蛋白酶复合物结合亲和力景观)
模型预测全部单/双突变ΔΔGbind。位置12、16、36(及一定程度35、37)与其他位置组合时平均ΔΔGbind下降明显,鉴定为热点;位置11、13、34同时突变可改善亲和力,三者空间簇集表现协同效应。位置15(Lys15)突变为正电荷、芳香族或Leu/Met增强亲和力,负电/亲水/部分疏水残基降低之;FoldX模拟表明K15R增加氢键数、K15H熵增益有利结合、负电D/E15不形成氢键不利结合、疏水Val/Ala/Ile/Pro埋入极性区不利(Pro引起骨架应变)。位置18(Ile18)突变成正电残基(除与热点配对外)或芳香族改善亲和力,负电/Pro/Gly降低亲和力。
2.4.2 Binding affinity per position(各位置的结合亲和力分布)
各位置变体在四门中分布:12、16、35–37位更多富集于LO门印证热点判定。位置逐一剔除验证:位置34、39、13平均跨门相关系数较高(0.654、0.628、0.602),突变效应可由其他位推断;热点12、16、15较难预测(平均R=0.175–0.349),需含该位变异例训练,表明热点效应具强位置特异性、依赖结构上下文。
2.5 Epistasis prediction and landscape analysis(上位性预测与景观分析)
计算所有双突变ε=ΔΔGbind,i+ΔΔGbind,j?ΔΔGbind,ij。热点两两组合常呈正平均上位性(positive epistasis,协同);位置13、34与多其他位组合呈负平均上位性(negative epistasis);18位依配对残基可正可负。亲和力与上位性多呈负相关——双突变亲和力增强伴负上位性,亲和力削弱伴正上位性(如K15正向突变+其他位,或R17负向突变+热点),此趋势受首突变主导;少数情况(如I18与特定位组合、部分11/13/17置换)呈正相关。并非所有配对遵从此规律,表明上位性具情境及残基依赖性。
讨论与结论
研究人员讨论指出:(1)双突变景观覆盖不全源于建库/测序限制及亲和力筛选本身偏好;(2)ESM2嵌入拼接位置特异性one-hot的简单全连接NN足以捕获非线性突变效应;(3)HI/LO门预测佳因捕获极端亲和力变化,四门整合抵消门特异噪声;(4)BPTI中12/16/36/35/37为胰凝乳蛋白酶结合热点(与Heyne等一致),而15位在此体系中非热点反而可增强亲和力(区别于BPTI–胰trypsin中15为热点,因chymotrypsin识别芳香族而非Lys),体现伴侣特异性;(5)热点位突变效应难跨位迁移(prediction),需本地位训练样本;(6)上位性在热点配对时常为正(协同),部分远端位点间亦存上位性(可能经结合伙伴介导的相互作用网络或间接结构–能量耦合),与文献相符;本研究首次在该体系用DMS+ML补全全双突变景观定量上位性。(7)局限性:依赖单一实验体系、部分双突变缺如、 epistasis由ΔΔGbind导出未直接标定、一位置one-hot不显式建模残基空间关系等。
结论翻译:
综上,本研究通过绘制BPTI与胰凝乳蛋白酶单/双突变体的亲和力及上位性图谱,揭示了突变对PPIs及亲和力景观的影响机制。通过机器学习补全并预测所有单/双BPTI突变变体结合亲和力(ΔΔGbind)和上位性,发现热点位置配对常产生正上位性(协同结合效应),多数双突变亲和力变化与上位性呈负相关——亲和力增强关联负上位性。该方法为拓展至更高阶突变及无结构信息蛋白质的突变效应预测奠定基础,并需在额外蛋白酶–抑制剂对上系统验证其普适性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号