活性位点多样化策略:通过底物多重筛选与计算指导重组优化非经典氨基酸脱羧酶
《Protein Science》:Active site diversification of a non-canonical amino acid decarboxylase by merging substrate multiplexed screening with computationally guided recombination
【字体:
大
中
小
】
时间:2025年10月24日
来源:Protein Science 5.2
编辑推荐:
本文报道了一种将底物多重筛选(SUMS)与计算指导重组相结合的新策略,用于高效探索色氨酸脱羧酶(TDC)活性位点五個位点的重组序列空间。该方法通过少量筛选数据(<200次测量)训练逻辑回归模型,成功富集了功能性序列区域,获得了催化效率提升近500倍的变体,并产生了一系列具有独特底物混杂性(promiscuity)的酶变体,为非经典氨基酸(ncAA)的生物催化转化提供了强大工具。
活性位点多样化策略:通过底物多重筛选与计算指导重组优化非经典氨基酸脱羧酶
生物催化研究通常始于在具有相关活性位的酶集合中筛选所需活性。目前产生此类集合的方法主要有两种:一是筛选同源天然酶,二是利用定向进化产生的序列多样性。然而,许多理想的酶功能在自然界中相对罕见,且经过定向进化的酶数量有限。因此,开发能够直接生成多样化且功能性活性位点的方法具有显著优势。活性位点突变重组是改变酶活性的有效策略,但多位点同时突变会导致巨大的序列空间,其中大部分序列是无活性的,这限制了基于筛选的重组方法在活性位点多样化中的应用。
传统的定向进化通常使用单一模型底物进行。当生物催化的目标是生成单一产物时,这种方法非常有效。然而,当进化的目标是产生一种通用酶时,这种方法可能会在无意中优化对模型底物的活性,而难以与底物类似物发生反应。此外,单一底物筛选无法区分仅改变可溶性酶浓度的突变与改变kcat/KM从而影响催化本身的突变。
底物多重筛选(SUMS)是一种新兴的筛选策略,它将两种或多种底物置于直接竞争环境中,每种底物充当相互竞争性抑制剂。由于SUMS为每个变体生成多个相互依赖的活性测量值,相应的结构-活性关系富含生化信息。例如,SUMS可以区分对所有底物均无活性的酶和仅对部分底物活性受损的酶。
本研究探索了围绕色氨酸(Trp)脱羧酶活性位点的五个位置(F98, V99, L339, W349, L355)的集中重组。我们的目标是以最少的筛选工作,最大化地获得能够脱羧非经典氨基酸(ncAA)的酶的序列多样性。我们利用SUMS来区分那些对所有底物活性受损的重组体与那些特异性发生改变的重组体。通过这种方式,我们识别出了比单一底物筛选所能发现的更大比例的活性序列空间。
SUMS实施的关键初始步骤是底物选择。对于单分子转化,底物根据其各自的催化效率竞争活性位点。当酶对混合物中某些底物的活性高于其他底物时,低活性反应可能会被有效掩盖。因此,如果亲本酶对每种所选底物具有相似水平的活性,则最容易解释SUMS的结果。
为此,我们选择了两种5-取代的色氨酸,RgnTDC对它们的脱羧效率仅为中等或较低:5-NO2-Trp和5-OEt-Trp。之前观察到对这兩種底物的活性相关性不强,因此将两者都加入底物池可以降低遗漏仅对其中一种有激活作用的突变的可能性。RgnTDC的活性位点完全包围其底物,4位的取代在空间上要求很高。因此,我们还在混合物中加入了4-OMe-Trp和4-CN-Trp。同时包含了β-Me-Trp以确定重组是否能发现功能获得性突变(亲本活性<10 TON)。然而,在所有筛选的库中,没有变体在竞争条件下显示出可观察到的β-Me-Trp活性,因此在后续筛选分析中不再讨论该产物。
我们靶向了五个活性位点残基进行重组:F98、V99、L339、W349和L355。一个完整的重组空间将包含高达320万个成员,这阻碍了通过平板筛选进行全面采样。我们考虑了一个更有限的空间,该空间包含每个位置上先前被发现对一种或多种取代色氨酸具有中性或激活作用的突变。这个“聚焦库”包含28,800种可能的序列,预期突变率相对较高,为每个克隆4.3个突变。我们使用LC-MS来检测该库成员对所选4-和5-取代色氨酸的等摩尔混合物的活性。
我们对这个空间进行了小规模采样,获得了37个独特变体的SUMS序列-功能关系。我们测量了每种形成的取代色胺产物,并计算了它们相对于亲本的比率,这归一化了电离效率的差异并减少了研究过程中板间差异。然后,可以通过图中条带大小的变化轻松可视化变体混杂性的变化。然而,变体“活性”的测量更为微妙。最简单的指标是总产物的变化,它易于理解但在此研究中使用有限。例如,对反应性更强的底物(如4-OMe-Trp)活性的小幅下降可能会掩盖对反应性较弱的底物(如5-OEt-Trp)活性的大幅增益。这样的变体代表了序列空间的创新区域,如果仅基于总产物进行分析将会被忽略。因此,我们计算了单个产物活性变化倍数的平均值,这补偿了亲本活性的差异,并更好地捕捉了总活性的理想变化。
我们将变体根据其活性分为三类。平均折叠活性大于1.5的变体被标记为“高活性”变体,而平均折叠活性小于0.3的变体被标记为“无活性”。中间变体和野生型酶被指定为“低活性”。只有约14%的变体显示高活性,约32%的变体为低活性,其余约57%的变体无活性。最活跃的变体TDC F98F, V99F, L339L, W349F, L355L有两个突变,缩写为TDC-FFLAL。该变体对5-OEt-Trp的活性大幅增加。与TDC-FFLAL的高度特异性相反,单步突变至TDC-FFLRL产生了一个对兩種5-取代色氨酸活性都有提升的变体。我们还鉴定出一个对4-取代色氨酸具有高活性的变体TDC-FVVFA。值得注意的是,一些低活性变体对一种4-取代和一种5-取代色氨酸均表现出双重活性,其中许多是三突变和四突变体。这些结果表明,该突变空间是发现独特新酶的有希望区域。然而,大多数序列的总活性较低。
对库测序数据的分析显示,每个克隆的平均突变负荷为3.6个突变。值得注意的是,大多数具有四个突变的序列和所有五突变体都是无活性的。由于序列空间的创新区域仅限于功能性酶,我们考虑了一种策略,使库空间偏离这些无活性变体。
我们通过在PCR过程中混合含有野生型序列的引物与诱变引物来重新调整突变率。这种“野生型掺杂”策略保持了理论序列空间的同一性,但降低了突变负荷,我们假设这将增加活性序列的比例。引物以诱变引物与野生型引物3:2的比例添加,预期突变率为每个克隆2.6个突变。
初步筛选显示,这个新库中大约一半的序列被指定为有活性,因此我们进行了更深入的筛选,收集了140个独特变体。直方图分析显示,平均活性位点突变率确实降低到每个变体2.6个突变。测序发现,一个非预期的远端突变I343N在库中很常见。我们比较了仅因I343N存在而不同的变体,观察到这种非预期突变没有引起混杂性的一致变化,但偶然地增加了总活性。
少量变体显示出混杂性的明显转变。和之前一样,我们鉴定出仅对5-OEt-Trp激活,或对兩種5-取代色氨酸都激活的变体,但赋予这些效应的突变完全不同。在这个序列空间中,所有对5-取代底物激活的变体在W349处都有一个突变。这些数据还揭示了一个双突变体TDC-FVLKA,它对4-CN和5-NO2底物均有激活作用。这些结果突显了野生型引物掺杂可以将序列空间偏向于功能性的通用变体。虽然这个库富含活性序列,但与未掺杂的库相比,我们观察到该库的产物分布同质性更高。我们假设功能多样性的减少是序列多样性减少的直接结果。因此,我们考虑收集到的序列-功能信息是否可用于计算建模,以在保持酶功能的同时增加突变负荷。
我们使用建模来识别表现出高负协同效应倾向的突变。我们的假设是,未掺杂的库含有大量的三突变和四突变体,将为协同效应提供丰富的信息。与此数据互补的是,引物掺杂库富含单突变和双突变体。详细量化该序列空间中丰富的协同性需要更多的数据点。相反,我们通过逻辑回归采用了一种分类方案来识别强有害突变。
由于其简单性以及在先前建模工作中的成功,我们使用了独热编码。我们还考虑到可能存在与携带多个突变的蛋白质热稳定性降低相关的一般上位效应,这些效应与突变身份无关。因此,我们附加了一个大小为5的二元向量,以分离与突变数量相关的效应,而不考虑突变身份。
使用留一法交叉验证进行曲线下面积(AUC)分析,以评估模型保真度与标记阈值的关系。选择了0.45平均折叠活性的标记阈值,该阈值将较低活性的变体也包括在“活性”中,因为这些变体可能代表序列空间的创新区域。然后将该方案应用于标记的数据集,并进行受试者工作特征分析, resulting in a probability threshold of 0.48。所得模型的总体准确率为82%。我们考虑了模型准确性是否可能依赖于突变负荷,但发现模型在整个序列空间中具有良好的预测能力。这些指标表明模型已准确捕捉了训练数据的特征。
为了确定哪些突变被预测为强不稳定,我们可视化了计算模型的基础权重值。正如预期的那样,观察到随着突变负荷的增加存在明显的负相关。该分析揭示了许多在该重组空间中有害的突变。尽管V99处的突变在某些双突变体中有益,但该位置突变的存在通常与适应性较低的变体相关。此外,F98S和W349E被预测为高度有害。我们假设去除这些突变将减少负协同效应,并增加较高突变负荷下的功能性序列数量。我们注意到I343N突变是权重矩阵中最有益的突变,并在后续重组中被固定下来。
我们实施了上述突变更改,产生了一个包含2970个序列的聚焦重组空间。使用诱变引物与野生型引物7:3的比例构建了代表该空间的库。我们从这个新库中获得了69个变体的序列和功能数据,其平均活性位点突变负荷从2.6小幅增加到2.9个突变。令人满意的是,突变负荷的增加并未损害具有高活性的库部分。
我们观察到这些变体的混杂性谱存在显著多样性,并出现了一些趋势。与之前的库一样,W349处的突变与对5-取代底物的高活性相关。对4-取代色氨酸活性提升最大的变体(TDC-FVMWA, TDC-MVMWA, TDC-MVLWM, 和 TDC-MVLWS)通常在L355处有突变,同时保留W349。值得注意的是,该库中有更多变体表现出通用活性。对同时激活4-和5-取代底物的变体(TDC-MVMWL, TDC-GVMWL, TDC-AVMWL, 和 TDC-MVVWL)的序列分析表明,它们在W349或L355处均无突变,这突显了活性位点周围不同位置如何影响反应性。
接下来,我们测试了基于SUMS的重组在识别对单一底物(即不再处于竞争状态)具有更高活性变体方面的能力。为此分析,我们筛选了27种多样化、被激活的变体。为简洁起见,我们将这些选定的TDC变体称为V01–V27,它们的突变如图所示。这些酶平均有2.7个突变,是根据它们对一种或多种底物的活性大幅提升以及它们的序列多样性来选择的。该集合包括5个来自未掺杂库的变体,11个来自野生型引物掺杂库的变体,以及11个来自逻辑回归优化库的变体。
在单一底物上测定活性可能会产生与SUMS不同的结果,因为没有底物竞争对表观活性的影响。令人满意的是,单底物筛选揭示了许多高度激活的变体。两个变体V02和V04显示了对4-取代色氨酸的活性增加。然而,V04对每种4-取代色氨酸的活性提升最高,分别对4-CN-和4-OMe-色胺的产生提高了41倍和3.5倍。这些提升是显著的,因为4-取代色氨酸是野生型酶最具挑战性的底物类别。
正如从SUMS筛选数据所预期的那样,许多变体对5-取代色氨酸的活性有所改善。这些变体都包含W349处的突变。许多变体对不同5-取代底物的活性增加是不对称的。对5-NO2-Trp最好的变体是V05(23倍),而对5-OEt-Trp最好的变体是V01(22倍)。两个变体都包含3个活性位点突变,仅共有L339M突变。
我们通过经典的米氏动力学分析进一步验证了工程化结果,使用5-NO2-Trp进行脱羧。动力学分析显示野生型确实是一种弱催化剂,催化效率仅为0.35 M-1 s-1。相比之下,V05具有明显的5-NO2-Trp脱羧活性,催化效率为170 M-1 s-1。虽然与WT催化其天然反应的速率(6900 M-1 s-1)相比仍然较慢,但V05中的三个突变赋予了490倍的催化效率提升。
本研究的核心假设是,使用SUMS生成多样化的活性位点将偶然增加对色氨酸类似物的活性,即使那些未包含在原始测定中。为了筛选该库的外推潜力,使用先前工程的TrpB催化剂合成并筛选了多种额外的取代色氨酸。对4-取代色氨酸最活跃的变体V04,对4-Br-Trp的活性也有所增加(5.7倍),并且出乎意料地,对β-Me-Trp的活性也有增加(1.9倍)。V06是一个对筛选的5-取代色氨酸仅具有适度活性增加的变体,是唯一测试显示对5-CONH2-Trp活性提高的变体(5.1倍)。该变体与V03(2.3倍)和V09(1.6倍)一起,对6-COOMe-Trp的活性也有所提高。
最后,我们评估了筛选库对经典芳香族氨基酸的活性。我们假设对内源性氨基酸的活性会导致细胞应激增加和细胞密度降低,从而降低酶滴度,并在异源表达时产生隐性选择压力。此外,如果TDC部署在全细胞或细胞裂解液的生物催化环境中,对内源性氨基酸的活性可能是一个重要的污染源。虽然亲本酶对每种芳香族氨基酸都显示出一定的活性,但该筛选库中的所有变体对L-苯丙氨酸和L-酪氨酸的活性均可忽略不计,并且大多数变体对L-色氨酸的活性降低。这些结果与在SUMS筛选中省略L-苯丙氨酸和L-酪氨酸类似物一致,允许在该化学空间区域发生功能丧失。
这项研究的最初动机是鉴定高活性的TDC变体,用于生成具有生物活性的4-和5-取代色胺。工程化以提高对任何一种这些底物的活性本身将是一项简单(即使不平凡)的任务。基于SUMS的重组使得进化能够同时提高对多种不同底物的活性。这一结果值得注意,因为某些底物(如5-取代色氨酸)之间的活性交叉相关性很差,并且没有任何单一的迭代位点饱和诱变(ISM)努力能够产生此处发现的高度熟练的催化剂。确实,我们从此处的结果中观察到了类似的趋势,许多变体仅显示对一种测试的4-或5-取代色氨酸的活性增加。因此,基于SUMS的重组使得能够进化多种专用催化剂,同时避免重复工作。令人高兴的是,许多在筛选期间对4-和5-取代色氨酸显示高活性的变体,也对未处于选择压力下的新4-和5-取代色氨酸显示出高活性。V03和V06的活性甚至增加了对6-COOMe-色氨酸的活性,尽管筛选时未包含任何6-取代色氨酸。这些序列代表了未来工程努力或探索在合成或生物学背景中实用性的新起点。
这些变体的一个显著特征是许多具有改进的特性,可用于选择性体内ncAA脱羧。也就是说,大多数变体不与Tyr或Phe反应,甚至对天然色氨酸的活性也显著降低。先前针对β-羟基氨基酸活性的TDC工程偶然增加了对游离Leu和Met的活性,并且色氨酸仍然是优势底物。在我们目前研究的大多数RgnTDC变体中,我们观察到色氨酸活性完全丧失,同时对更大的色氨酸类似物获得了活性。这种特异性转变对于体内TDC应用具有明显意义,在这些应用中不希望发生天然代谢物的脱羧,例如在酵母中的异源表达。此外,应用对色氨酸衍生物具有选择性的正交TDC可能对合成生物学有用。
活性位点诱变是一种有效工程化酶活性的可靠策略。然而,在重组空间的大小(可能包含高度激活的序列)与最小化筛选时间之间存在张力。诸如组合活性位点饱和测试(CASTing)、迭代位点饱和诱变(ISM)和聚焦理性迭代位点特异性诱变(FRISM)等技术试图通过迭代固定突变来压缩巨大的组合空间。在这里,我们提供了一种探索此类序列空间的不同方法。我们不固定突变(这会限制捕捉协同效应的能力),而是扫描更大的组合空间,并使用实验和计算方法的组合迭代地将库空间偏向更活跃的区域。用含有野生型序列的引物补充诱变引物的方法概念简单但很少报道,它允许微调突变负荷以减轻对失效酶的采样。由此产生的稀疏序列-功能数据足以训练一个简单的逻辑回归模型,该模型识别每个个体突变在与其他突变组合时对活性的平均影响。未来增强本研究建模部分的努力可能会结合酶稳定性的计算预测以及更全面的编码方案,例如描述底物理化性质的方案。SUMS数据还为训练更定量的建模策略(如线性或高斯核回归)提供了丰富的信息。
应用SUMS指导的RgnTDC活性位点深度重组产生了一组多样化的序列,这些序列对色氨酸类似物具有独特的活性谱。我们利用来自RgnTDC五个位点饱和诱变库(96个独特序列)的先验信息,将理论重组空间限制在28,800个可能的变体。通过使用单四极杆LC-MS仪器分析筛选,可以并行定量具有不同m/z值的产物,所需工作量不超过单底物测定。来自<200个变体的信息足以构建一个逻辑回归模型,该模型通过修剪普遍有害的突变进一步富集了库中的活性序列。此外,我们偶然发现了一个激活突变I343N,它位于先前晶体结构中未解析的环上。这些结果代表了使用基于SUMS数据的计算建模进行快速序列空间探索的第一步。对计算指导库中另外70个变体的筛选导致鉴定出具有互补活性谱的TDC变体。总共,仅对约250个变体(占总序列空间的<1%)进行了序列-功能关系采样。这些结果强调了SUMS指导的深度重组作为蛋白质工程方法的实用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号