基于肽结合实验与自由能回归的SH2结构域精准亲和力模型研究

《Protein Science》:Accurate affinity models for SH2 domains from peptide binding assays and free-energy regression

【字体: 时间:2025年10月16日 来源:Protein Science 5.2

编辑推荐:

  本综述系统介绍了结合细菌展示肽库、多轮亲和筛选与下一代测序(NGS)技术,开发SH2结构域定量结合自由能模型(ProBound)的创新策略。该模型能精准预测任意肽序列与SH2结构域的结合亲和力(KD),突破了传统分类模型的局限,为揭示磷酸化酪氨酸(pY)依赖性信号网络调控机制、致病突变效应评估及新型药物靶点发现提供了强大工具。

  
2.1 整合实验与计算框架生成肽识别域序列-亲和力模型
本研究旨在通过亲和筛选随机肽库系统分析SH2结构域的序列特异性。随机肽库的极端序列多样性给数据分析带来挑战:输入库中单个序列的测序计数低且噪声大,难以控制非均匀性;即使完美的亲和筛选(富集与结合亲和力成正比),高通量序列仍占少数,因低亲和力序列(i)数量更多且(ii)受非特异性结合和实验残留影响;多轮筛选可进一步富集文库,但会引入新挑战:文库捕获和准备下一轮时可能产生偏差,低亲和力位点随筛选轮数呈指数耗竭,过度筛选会移除低亲和力序列信息。此外,即使获得完美数据集(记录文库中精确亲和力),结合位点的确切位置也先验未知。
为克服这些挑战,我们采用紧密协调的计算和实验策略。计算方面,使用ProBound建模框架(亦称自由能回归)。先前研究表明,ProBound可从多轮筛选数据中推断数百个转录因子的序列-亲和力模型,并能预测酪氨酸激酶c-Src底物肽序列的酶活性,预测范围跨越多个数量级。本研究证明该策略同样适用于非酶促蛋白-肽相互作用的平衡结合特异性建模。
针对特定SH2家族肽结合域的实验数据,ProBound学习一个模型,可预测任何肽序列相对于最优序列(作为模型拟合的一部分学习)的结合自由能(ΔΔG)。本研究使用最简单模型,假设肽中所有残基位置的结合自由能具有加和性。定义相对结合亲和力为exp(-ΔΔG/RT),最优序列为1,其他序列介于0和1之间;相对亲和力也与平衡解离常数KD成反比。
ProBound模型在预测富集时对所有可能结合偏移求和,避免了识别离散结合位点集的需要。为估计结合模型的自由能参数,ProBound使用最大似然估计:给定输入和亲和筛选文库对,基于预测亲和力计算观察计数的似然;若输入和筛选文库经多轮筛选测序,可分别计算每轮似然后求和,使单个结合亲和力模型拟合多轮数据,整合早期和晚期轮次中低和高亲和力序列的信息。此外,回归方法不要求初始文库均匀或具有大量单个序列计数,可探索初始文库随机度变化对最终模型鲁棒性和所需亲和筛选强度的影响。
2.2 使用ProBound稳健推断SH2-肽结合自由能模型
近期研究使用细菌表面展示质粒编码的含中央磷酸化酪氨酸肽和NGS检测c-Src激酶SH2结构域的靶标特异性。采用两种不同文库设计:一种基于约104个含磷酸化酪氨酸且存在于人群中的肽("pTyrVar"),另一种为合成随机文库("X5YX5"),固定酪氨酸两侧为完全简并的五氨基酸侧翼,理论多样性约1013,实际多样性约106。该研究依赖相对富集的位置特异性图谱,通过比较亲和富集前后氨基酸频率,简单直观总结SH2结构域序列偏好并预测未见过肽的相对结合亲和力。
我们假设使用相对富集作为肽中氨基酸取代相关真实结合自由能差异(ΔΔG)的代理从定量角度可能次优:相对富集可能依赖文库设计,而结合自由能差异作为SH2-肽界面的内在属性应无关。为验证此点,首先比较pTyrVar和X5YX5文库经c-Src SH2结构域筛选后的肽富集。每种文库设计中,独特序列计数分布的偏移表明亲和筛选步骤以低亲和力序列为代价促进高亲和力序列,导致更少序列主导结合文库。pTyrVar文库的分布位于X5YX5文库左侧,因pTyrVar复杂性低于完全随机X5YX5文库。尽管筛选条件相同,pTyrVar文库的氨基酸偏好似乎更明显。
下一步目标是评估ProBound是否能从高通量蛋白-肽结合数据构建准确序列-亲和力模型。为此,配置ProBound学习一个自由能矩阵,编码SH2结构域与11氨基酸子序列的相互作用。为聚焦序列特异性SH2结合,中央列约束为识别酪氨酸。非中央列使用最大似然估计基于输入和结合筛选文库学习。具体地,每个序列的选择通过首先计算总序列特异性结合亲和力(评分并求和所有结合偏移,从而控制非中央酪氨酸),然后添加非特异性项捕获背景筛选和简单序列偏差。
建模方法的优势在于考虑肽库中配体所有可能结合偏移,意味着可从含非中央位置酪氨酸的数据学习。发现结果模型的ΔΔG参数在两个文库设计间远比相应对数富集一致(r2=0.81对0.56);这可能因为ProBound在估计氨基酸取代的能量效应时控制了序列背景和非特异性结合的影响,这两者均依赖文库。对数富集分析表明非中央位置酪氨酸被筛选,但这可能是假象,因文库含非中央磷酸化酪氨酸残基可能也被酶促磷酸化,导致SH2在非中央偏移结合。相比之下,考虑所有可能结合寄存器的ProBound模型未显示非中央位置酪氨酸比例过高。模型分析还以无偏方式证明,中央酪氨酸两侧五个随机位置的文库设计具有足够大足迹以完全捕获序列与亲和力关系,最强效应来自-2至+3位置。
2.3 使用完全随机文库进行多轮连续筛选的可行性
目前使用的文库设计利用了SH2结构域的先前知识,特别是其结合界面强烈需要中央磷酸化酪氨酸残基。然而,当类似实验策略用于表征其他肽结合域时,这种偏倚设计可能不理想或不可行。更普遍地,若使用随机文库为ProBound生成合适训练数据可行(随机文库具普遍性,可作为表征任何肽结合域的起点),将免除设计和合成文库的需要。因此,我们使用新文库("X11")重复肽结合实验,其中11个连续残基位置完全随机;否则遵循协议,包括细菌展示文库磷酸化后c-Src SH2结构域结合。结果显示,使用ProBound对单轮筛选的X11文库数据建模,所得结合自由能参数与X5YX5文库结果一致性较差。由于X11预期比另两个文库更受弱结合剂主导,R1数据缺乏足够信号用于成功结合模型推断或许不意外。为解决此问题,开发了多轮筛选策略,旨在每轮最大化回收文库结合部分。除结合部分外,每轮输入也测序作为对照,ProBound配置为联合学习所有轮次的输入-输出对。使用此协议生成额外数据,发现X11文库需三轮筛选才能为ProBound构建高质量c-Src SH2结构域序列-亲和力模型提供足够信号,该模型与X5YX5文库R1构建模型吻合良好。
使用无偏X11文库分析SH2结构域结合偏好的一个缺点是输入库中许多序列不包含任何酪氨酸残基。此外,依赖侧翼序列,并非每个酪氨酸都能被用于酶促磷酸化的激酶高效磷酸化。由于特异性识别pTyr是SH2结合亲和力的主要贡献者,使用生物素化抗磷酸化酪氨酸抗体对X11文库进行靶向无关预筛选。发现此情况下两轮后续c-Src SH2结构域筛选足以获得高质量结合模型,与X5YX5模型吻合良好。
X11文库的优势在于其普遍性:原则上,只要筛选足够,可无偏表征序列偏好完全未知的蛋白质。因此,我们询问是否可在不使用中央位置需酪氨酸的先验知识情况下表征c-Src SH2结构域。重新配置ProBound从R2和R3文库学习完全无约束的自由能矩阵,产生的结合模型其ΔΔG参数再次与X5YX5文库R1构建的中央约束模型吻合良好。
2.4 量化旁系同源SH2结构域间侧翼序列偏好差异
为测试方法解析旁系同源间结合特异性差异的能力,对Src亚家族两种密切相关的激酶(c-Src和Fyn)和适配器蛋白Grb2的一种远缘SH2结构域进行X5YX5文库的两轮筛选。对于Grb2 SH2结构域,观察到在pTyr相对位置+2强烈偏好天冬酰胺残基,与先前发现一致。值得注意的是,对于Grb2,模型预测的含与不含N+2肽的相对结合亲和力相差2-3个数量级,这与先前Grb2 SH2亲和力测量一致,表明取代N+2残基破坏结合亲和力至少100倍。
作为更严格和直接的实验测试,对一组源自天然蛋白的单独合成磷酸肽进行低通量竞争荧光偏振实验,这些肽覆盖近两个数量级的预测结合亲和力。三个SH2结构域中每个的测量ln(KD)值与相应ProBound模型预测的ΔΔG值吻合良好(r2值范围0.58至0.89;确认验证序列均未出现在模型训练的原始NGS数据中)。对于Grb2,还将亲和力预测与孵育荧光标记SH2蛋白的含720个确定肽的纤维素膜阵列点强度直接比较。
比较c-Src和Fyn模型时,注意到一些可重复的特异性差异。例如,虽然两个结构域在酪氨酸相对位置+1偏好谷氨酸,但c-Src相对于Fyn在+1位置对天冬氨酸和丙氨酸有独特偏好。为解释这些差异,使用AlphaFold 3生成c-Src和Fyn SH2结构域结合预测高亲和力磷酸肽的模型,该肽在+1位置带谷氨酸。c-Src和Fyn SH2结构域有66%序列同一性,磷酸肽结合口袋内 divergent 位置极少。其中一个残基是c-Src中的N201,对应Fyn中的H199。该残基位于带正电荷口袋中心,协调E+1。结构模型和亲和力模型表明,该中央残基从c-Src中 obligate 中性氨基酸变为Fyn中潜在带电氨基酸,改变了该区域空间和静电表面势,从而改变肽位置+1的氨基酸偏好。
最后,在更全面测试使用靶向无关文库方法可行性的实验中,还对同一组SH2结构域进行X11的三轮筛选。除一例外,生成数据推断的结合模型按SH2结构域身份聚类,表明ProBound正当地控制了X11或X5YX5文库间显著差异以及是否使用4G10预筛选。
2.5 亲和力模型助力发现推定的新相互作用
经验证准确性后,我们探究SH2结构域亲和力模型是否可用于分配人类蛋白质组中已知磷酸化位点的相对亲和力,以识别文献未报告的推定相互作用伙伴。首先,为Src家族激酶Lyn、Blk和Yes的另外三个SH2结构域生成细菌展示数据集和亲和力模型。为验证Lyn亲和力模型,选择一组可能落在竞争荧光偏振实验动态范围内的磷酸肽。选择9个可能以中高亲和力结合Lyn SH2结构域的磷酸化位点,包括3个先前报告的相互作用子和6个STRING数据库中未报告与Lyn相互作用的蛋白上的位点。通过荧光偏振测量相应磷酸肽的结合亲和力。Lyn SH2结构域显示测量结合亲和力与模型预测相对亲和力良好相关,表明这应是跨蛋白质组识别推定SH2相互作用子的可靠策略。
对来自多个中通量SH2-pTyr相互作用筛选数据再分析,将大量磷酸肽分类为结合或非结合。我们的模型预测的结合和非结合序列的相对亲和力分布,六种不同SH2结构域案例中均显示预期方向偏移,六例中四例统计显著。
接下来使用模型预测PhosphoSitePlus数据库中所有人类酪氨酸磷酸化位点的相对亲和力。虽然模型预测相互作用的潜力无关上下文,但特定细胞环境中只有当给定含SH2激酶及其靶蛋白均表达时,此类相互作用才会实现。因此,未考虑根据STRING数据库不共表达的对。每个SH2结构的预测高亲和力结合子列表显示大多数磷酸化位点具有低结合分数,表明SH2结构域偏好相对少量磷酸化位点。值得注意的是,几乎没有磷酸化位点达到最大理论结合分数,表明蛋白质组中很少有磷酸位点进化到以最高可能结合亲和力被其同源SH2结构域结合。这与SH2结构域早期发现一致,SH3结构域也有类似观察。
2.6 亲和力模型正确预测SH2配体中单氨基酸取代效应
SH2结构域显示位置特异性序列偏好意味着磷酸化酪氨酸侧翼的单氨基酸取代可能对SH2结合亲和力产生显著影响,这应被ProBound模型捕获。为测试此点,生产了几对人类蛋白衍生的磷酸化肽对,每对中一个肽为报告野生型序列,另一个含报告为自然人类变体的单氨基酸突变。通过荧光偏振实验测量这些肽对c-Src和Fyn SH2结构域的结合亲和力,并使用相应ProBound模型预测其相对亲和力。对于两个SH2结构域,突变引起的测量结合亲和力变化与亲和力模型预测的方向性相同,表明显著定性预测能力。然而,验证集太小,无法声称模型对变体效应的定量预测能力。
接下来使用ProBound模型评分PTMVar数据库中所有人类磷酸化位点变体的序列,预测报告变体相对于野生型序列是增强还是减弱结合。该数据库中许多变体来自具有特定疾病表型的患者,这些突变可能导致重新连接致病信号事件。过滤与给定SH2结构域共表达的蛋白质并移除磷酸化酪氨酸本身取代的变体,得到预测变体效应总结。每个点表示对应一对相差一个点突变肽的变体。每个等位基因可按相对亲和力评分,其参考是同一SH2结构域最高亲和力肽。预测的两个等位基因相对亲和力可通过计算其比率比较。比率等于1意味着两个等位基因的相对亲和力预测相同。
对于一些预测对SH2结合亲和力有相对较大影响的案例,发现文献证据表明它们可能确实为观察到的功能效应提供机制解释。例如,c-Src SH2结构域在存在肺癌变体R143L时对Vav2 Y142磷酸化位点亲和力丧失;c-Src直接参与Vav2同一位点的酪氨酸磷酸化,两种蛋白均与已知肺癌驱动因子EGFR共定位。模型还预测Fyn SH2结构域在存在A495V变体时对ZAP-70 Y492磷酸化位点亲和力增加。ZAP-70和Fyn均在T细胞抗原受体下游介导T细胞活化中起关键作用,Y492及相邻Y493均是此通路中关键磷酸调节位点。对于Lyn SH2结构域,预测当存在G361K变体时对HS-1 Y360磷酸化位点亲和力丧失。这在Lyn/HS-1信号轴背景下可能具有意义,该轴是慢性淋巴细胞白血病的治疗兴趣点。最后,对于Grb2 SH2结构域,观察到在存在K37N变体时对ARPC1B Y35位点结合强烈增强。鉴于ARPC1B在肌动蛋白细胞骨架支架中的作用,这种与普遍适配器蛋白Grb2的新相互作用可能改变重要细胞事件期间其他信号蛋白向细胞骨架的募集,此时ARPC1B和Grb2均已功能暗示。
3 讨论
本研究展示了如何将细菌展示肽库、多轮亲和筛选和NGS与结合自由能参数的原则性回归相结合,以获得肽结合特异性的稳健模型。自由能回归方法相比更简单的基于富集的策略有几个优势。首先,当估计氨基酸取代的能量影响时,通过预测完整结合界面的亲和力而非简单计算每个位置独立的氨基酸富集,控制了结合位点中其他残基的混淆影响。类似地,通过考虑所有可能偏移并预测总结合亲和力,控制了可能次级结合位点的混淆影响。最后,通过拟合单个结合模型最佳解释完整多轮实验来合成数据。这些改进的计算方法使得使用高度复杂的随机文库进行无偏、靶向无关的方法成为可能。
将方法应用于SH2家族的各种肽结合域,发现模型的预测准确性强烈依赖SH2旁系同源的身份,以及用于生成训练数据的筛选实验设计。结合肽中央存在翻译后修饰的磷酸化酪氨酸,这对所有SH2结构域的结合亲和力有强烈特异性贡献,可能促进了当前方法的成功。
对于每个生成NGS数据并拟合模型的SH2结构域,可预测任何pY侧翼序列的结合亲和力(相对于最高亲和力序列)。发现通过获得一小组合成肽的结合常数低通量测量并直接与模型预测的相对亲和力比较,客观量化每个模型的准确性很重要。然而,一旦特定SH2结构域的序列-亲和力模型通过这一严格质量评估步骤,它很可能在训练所用文库覆盖的完整理论空间内给出可靠预测。因此,它是预测细胞蛋白-蛋白相互作用网络中SH2结构域推定新靶标或预测配体序列中等位变异对SH2结合亲和力的定量效应的宝贵工具。
需强调,训练模型的数据不包括任何单个序列的直接亲和力测量。它完全由筛选实验每轮测序的原始NGS读数组组成。由于起始随机文库高度多样化,且简单加和结合自由能模型仅有几个参数,对训练数据过拟合的风险极小。尽管如此,确保验证实验中使用的任何序列均未出现在NGS训练数据中。
人类基因组编码多种PRD。为理解这些域定义的蛋白相互作用网络的结构和功能取得进展,必须为每个域构建高质量序列-亲和力模型,并超越当前可用资源中目标和
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号