
-
生物通官微
陪你抓住生命科技
跳动的脉搏
整合蛋白质语言模型和自动生物铸造以增强蛋白质进化
【字体: 大 中 小 】 时间:2025年02月14日 来源:Nature Communications 14.7
编辑推荐:
传统的蛋白质工程方法,如定向进化,虽然有效,但往往耗时且费力。机器学习和自动化生物铸造厂的进展为优化这些过程带来了新机遇。本研究设计了一种基于蛋白质语言模型的自动进化平台,这是一个在 “设计 - 构建 - 测试 - 学习” 循环内实现自动化蛋白质工程的闭环系统。蛋白质语言模型 ESM - 2 进行 96 个变体的零样本预测以启动该循环。生物铸造厂构建并评估这些变体,并将结果反馈给多层感知器以训练适应性预测器,然后该预测器预测具有更高适应性的第二轮 96 个变体。以氨酰 - tRNA 合成酶为模型酶,在 10 天内进行了四轮进化,得到的突变体酶活性提高了高达 2.4 倍。浙江大学的研究人员所开发的该系统显著提高了蛋白质进化的速度和准确性,推动了蛋白质工程在工业应用中的更快发展。
摘要:传统的蛋白质工程方法,如定向进化,虽然有效,但往往耗时且费力。机器学习和自动化生物铸造厂的进展为优化这些过程带来了新机遇。本研究设计了一种基于蛋白质语言模型的自动进化平台,这是一个在 “设计 - 构建 - 测试 - 学习” 循环内实现自动化蛋白质工程的闭环系统。蛋白质语言模型 ESM - 2 进行 96 个变体的零样本预测以启动该循环。生物铸造厂构建并评估这些变体,并将结果反馈给多层感知器以训练适应性预测器,然后该预测器预测具有更高适应性的第二轮 96 个变体。以氨酰 - tRNA 合成酶为模型酶,在 10 天内进行了四轮进化,得到的突变体酶活性提高了高达 2.4 倍。浙江大学的研究人员所开发的该系统显著提高了蛋白质进化的速度和准确性,推动了蛋白质工程在工业应用中的更快发展。
蛋白质在包括医学、化学制造、能源、农业和消费品等各个领域都发挥着至关重要的作用。然而,对于工业应用而言,蛋白质通常需要进行工程改造,以增强其稳定性、活性、选择性和结合亲和力等特性。人们已经开发出许多蛋白质工程策略,其中定向进化是一种成熟且强大的方法。传统的定向进化依赖于随机诱变和高通量筛选的迭代循环,以鉴定具有所需特性的变体。尽管这种方法有效,但过程耗时且费力。此外,由于定向进化通常一次引入一个突变,它可能会陷入局部适应性最优解,限制了进一步的改进。最近,由结构或序列信息指导的定点诱变已成为一种流行的产生所谓 “小而精” 文库的方法。这些文库包含更高比例的有益突变和更少的有害突变,提高了定向进化的效率。例如,迭代饱和诱变(ISM)和 CASTing 方法已有效地用于酶进化,仅需要筛选包含 5000 至 20000 个变体的中等规模文库。然而,定点诱变的成功高度依赖于目标位点的选择,这需要对蛋白质的结构 - 功能关系有深入的理解。此外,诸如 Rosetta 和 HotSpot Wizard 等软件工具在酶重新设计和功能增强方面显示出一定前景,但从头酶设计仍处于起步阶段,并且这些方法通常仅对相对简单的反应有效。
机器学习(ML)最近已成为探索蛋白质适应性景观的一种有前途的工具。一种具体应用,即 ML 辅助定向进化(MLDE),采用监督式 ML 模型来预测携带多个突变的蛋白质变体的适应性。这项技术有助于在蛋白质序列空间中实现更大的跳跃,有助于绕过在具有强上位性的景观中经常出现的局部最优解。贝叶斯优化(BO)作为主动学习中的一种方法,特别适合识别具有显著改进适应性的蛋白质变体。多项研究已将高斯过程模型与 BO 应用于优化蛋白质。例如,迭代 BO 已证明其在增强 P450 酶的热稳定性方面的有效性。类似的方法已被应用于工程改造卤化酶的活性、推定的一氧化氮双加氧酶的对映选择性、绿色荧光蛋白(GFP)的荧光波长等。尽管取得了这些进展,但 ML 在蛋白质工程中的广泛应用在获取和建模蛋白质功能数据方面仍然面临挑战。通过实验收集功能数据既耗时又费力,特别是对于具有多特异性的酶,这是由于底物的多样性和复杂性。此外,很难知道如何有效地采样和利用有信息的蛋白质突变体来训练 ML 模型,尤其是对于结构与功能关系未知的蛋白质。
蛋白质语言模型(PLMs)在跨越生命进化树的大量蛋白质序列数据集上进行训练,因此学习到了蛋白质结构和功能的基本原理。PLMs 已被证明在对功能蛋白质进行建模、预测自然进化方向和设计新型蛋白质方面非常强大。PLMs 中捕获的知识可应用于特定蛋白质的 “零样本” 优化。抗体的亲和力成熟已由 PLMs 指导,通过筛选 20 个或更少的变体,结合亲和力提高了高达 160 倍。PLMs 还被用于辅助优化尿嘧啶 - N - 糖基化酶变体的活性,该变体能够实现可编程的 T 到 G 和 T 到 C 碱基编辑。然而,一个主要的开放性问题是,从过去进化过程中的序列变异中学习到的一般进化信息是否足以在特定选择压力下实现特定蛋白质的高效进化。
此外,由生物铸造厂辅助的实验室自动化对于生成开发用于蛋白质工程的 ML 模型所需的大量数据将非常有价值。一个完全集成的生物铸造厂将高通量核心仪器(包括液体处理仪、热循环仪、片段分析仪和高内涵筛选系统)与外围设备(如板封仪、振荡器和培养箱)相结合。这些组件由机械臂和调度软件无缝协调。例如,PlasmidMaker 是为自动化高通量质粒设计和构建而开发的。此外,生物铸造厂和 ML 模型的结合导致了 BioAutomata 的应用,这是一个为工程改造番茄红素生产途径而设计的自动化闭环系统。最近设计了一个自动化高通量基因组编辑平台,通过该平台可以在一周内自动编辑数千个样本。然而,蛋白质工程尚未充分利用生物铸造厂的最新发展。一种所谓的用于蛋白质景观探索的自动驾驶自主机器(SAMPLE)平台已被开发用于完全自主的蛋白质工程。然而,该平台仅组装来自不同同源物的预合成 DNA 片段,以探索包含 1352 个蛋白质序列的小蛋白质景观。还开发了一种由贝叶斯优化指导的进化算法以及机器人实验用于蛋白质工程,并通过每轮采样 384 个突变体,共进行 4 轮(总计 1536 个突变体)来探索一个四位点组合文库。然而,BO 算法无法指导突变残基的选择,并且该算法的通用性仍然未知。
在本研究中,浙江大学的研究人员提出了一种蛋白质工程策略,将 PLMs 的预测能力与自动化生物铸造厂的操作效率相结合。在 “设计 - 构建 - 测试 - 学习” 循环中,“学习” 和 “设计” 阶段利用 PLMs 的见解来阐明蛋白质序列 - 适应性关系并对新型突变体进行采样,而 “构建” 和 “测试” 阶段则使用自动化生物铸造厂高效进行。具体而言,在应用 PLMs 进行蛋白质变体设计时,开发了两个模块,分别用于在不知道突变位点和已知突变位点的情况下预测高适应性的蛋白质突变体。研究团队的机器人系统擅长构建蛋白质变体并持续收集蛋白质变体的功能数据,通过全面的元数据跟踪和实时数据共享确保高可重复性。通过将 PLMs 的先进预测能力与机器人系统的高通量功能相结合,这种方法旨在突破传统限制,加速发现和增强对工业应用至关重要的蛋白质。研究人员使用詹氏甲烷球菌对氰基苯丙氨酸 tRNA 合成酶(pCNF - RS)作为模型酶来验证该过程。在每一轮中,由 PLMs 或监督式 ML 模型设计 96 个变体,然后由自动化生物铸造厂构建并测试。在半个月内进行了四轮实验,酶活性逐渐提高,在第四轮达到峰值。PLMeAE 系统与随机选择和传统定向进化策略相比表现出卓越的性能,并且有潜力加速其他蛋白质的工程改造。
在此,浙江大学的研究人员设计了一种基于蛋白质语言模型的自动进化(PLMeAE)平台(图 1),这是一个在 “设计 - 构建 - 测试 - 学习”(DBTL)循环内实现自动化蛋白质工程的闭环系统。该平台利用 PLMs 促进 “学习” 和 “设计” 阶段,而 “构建” 和 “测试” 阶段由生物铸造厂执行。该过程从创建变体文库开始,在 “设计” 阶段由 PLMs 启用的零样本学习方法为其提供信息。具体而言,PLMs 根据突变靶位点的可用性解决两个零样本任务。首先,在没有关于目标蛋白质的先验信息的情况下,PLMs 用于在零样本设置中预测高适应性的单突变体。其次,当基于先前实验或通过诸如对接、分子动力学模拟等物理建模技术已经确定了突变位点时,PLMs 用于在给定的目标位点预测零样本高适应性的多突变体变体。随后,在 “构建” 和 “测试” 步骤中,由生物铸造厂的自动化设施合成、表达和测试所提出的文库。在收集实验数据后,在 “学习” 阶段,PLMs 对蛋白质序列进行编码,并训练一个监督式机器学习模型,以将这些变体与其适应性水平相关联。随后,应用优化算法探索变体景观,促进合理设计并识别有前景的变体用于后续测试轮次。这个类似于主动学习策略的迭代过程持续进行,直到开发出最优变体。
[此处插入图 1:基于蛋白质语言模型的自动蛋白质进化概述]
在本研究中,浙江大学的研究人员基于 PLMs 开发了两个模块,用于分别针对两个零样本任务预测高适应性突变体。模块 I 用于先前未确定突变位点的蛋白质(图 2a)。在该模块中,PLM 预测具有高适应性改善可能性的单突变体,并将这种可能性作为适应性水平的代理。然后,这些高可能性突变体用于识别关键突变位点。另一方面,模块 II 针对已知突变位点的蛋白质,PLM 用于对有信息的突变体进行采样以进行实验表征(图 2b)。此外,PLM 用于编码蛋白质序列以训练适应性预测器。模块 I 和模块 II 可以组合使用或独立使用(图 2c)。
[此处插入图 2:用于蛋白质自动进化的蛋白质语言模型]
在 PLMeAE 系统的模块 I 中,浙江大学的研究人员专注于对缺乏预定义突变位点的蛋白质进行工程改造,利用一种系统的方法来发现和利用新的位点以增强蛋白质功能(图 2a)。该模块利用 PLM 在零样本预测设置中识别潜在突变位点,在这种设置下没有先前的突变数据可用。该过程从目标蛋白质的野生型序列开始。序列中的每个氨基酸被单独屏蔽,并由 PLM 进行分析,以预测该位点潜在突变的影响。模型评估每个屏蔽位点的所有可能单残基替换,计算每个变体超过野生型蛋白质适应性的可能性。然后,根据预测的适应性增益对显示出高功能改善可能性的变体进行排序。最有前途的候选变体(通常是根据可能性确定的前 96 个)被选择用于实验表征。然后,自动化生物铸造厂将合成并测试每个变体,以验证模型的预测并测量相对于野生型的实际适应性改善(图 2a)。通过该过程确定的改进单变体可以进一步选择作为使用模块 II 进行额外适应性增强的目标。
PLMeAE 系统的模块 II 针对已确定突变位点的蛋白质(图 2b)。模块 II 的第一轮进化涉及选择有信息的变体进行注释,这些变体随后作为构建监督式机器学习模型的数据集。为了实现这一点,研究人员采用了一种先进的采样方法,将蛋白质语言模型(PLM)与一种源自信息传输复杂性(ITC)的新指标相结合。利用 PLM,研究人员可以计算蛋白质序列中指定屏蔽位置处每个氨基酸的概率分布。为了确保所选变体具有足够的信息,选择那些表现出高概率和通过 ITC 分数评估的显著多样性的突变体纳入子集。例如,假设在每个屏蔽位置采样四种类型的氨基酸,则总共有 4845(C (20,4))个子集(图 3a)。基于 PLMs 计算的氨基酸概率分布和 PLM 氨基酸嵌入计算的氨基酸之间的相似性,研究人员基于 ITC 的方法将识别出具有最高概率和子集中氨基酸最大多样性的那个子集(图 3a)。
[此处插入图 3:用于工程改造已确定突变的蛋白质的蛋白质语言模型]
所选的有信息样本通过自动化生物铸造厂进行适应性注释,随后输入到由 PLM 和多层感知器(MLP)组成的适应性预测器(FP)中。为了防止过拟合,特别是考虑到注释数据的有限规模,研究人员在优化 MLP 参数时保持 PLM 的参数固定。这种优化侧重于最小化适应性预测中的平均绝对误差,从而提高模型在预测功能结果方面的准确性和可靠性。然后,适应性预测模型用于预测所有蛋白质变体的适应性值,并将排名靠前的变体发送到生物铸造厂进行构建和测试。蛋白质变体的标记数据随后用于更新适应性预测器,并进行多轮这样的操作,直到获得令人满意的蛋白质变体(图 3b)。
为了验证模块 II 的有效性,研究人员使用 GB1 数据集进行了一项计算机模拟实验,该数据集包括蛋白质 G 的 B1 结构域(GB1)中的四个已知突变位点以及几乎所有 20^4 个突变体的实验确定的适应性值。该实验涉及四轮采样,每轮选择 96 个突变体。研究人员利用实验测量的适应性值作为生物铸造厂注释过程的代理。ESM 是最先进的蛋白质语言模型,已用于蛋白质设计、结构预测以及抗体或酶工程。有几种 ESM 模型可供使用,每个模型都在不同的蛋白质序列数据集上进行训练,并且具有不同数量的参数。为了了解哪种 ESM 模型对突变的零样本预测更准确,研究人员探索了这些 ESM 模型计算的进化分数与 GB1 数据集中实验表征的适应性值之间的相关性。研究人员使用斯皮尔曼相关性(ρ)来量化等级相关性。结果发现,在所有测试的模型中,ESM2_t33_650M_UR50D(ESM - 2)表现最佳,对于单突变体、双突变体和三突变体,其 ρ 值分别为 0.415、0.331 和 0.173(图 3c)。
研究人员随后测试了在没有关于突变目标的信息时,ESM - 2 是否有助于识别潜在的突变位置。研究人员使用了两个数据集,即 SUMO 结合酶 UBC9 数据集和泛素数据集,这两个数据集包含了这两种蛋白质几乎所有可能的单变体的活性数据。ESM - 2 用于根据这两种蛋白质序列预测前 96 个单变体,同时还随机选择了 96 个变体进行比较(补充数据 1)。对于 UBC9 变体,ESM - 2 预测获得的最大适应性数据为 2.35,远高于随机选择的 1.72。此外,ESM - 2 预测的所有变体的平均适应性值为 0.53,高于随机选择的 0.43(补充图 1)。同样,对于泛素,ESM - 2 预测的所有变体的平均适应性数据为 0.75,显著高于随机选择的 0.44,尽管随机选择获得的最大适应性值与 ESM - 2 相似(补充图 1)。研究人员还发现,ESM - 2 预测的高适应性变体为进一步工程改造提供了热点。例如,ESM - 2 预测的泛素的 E18C 和 D32A 在数据集中分别排名第 44 位和第 87 位。如果选择这两个氨基酸进行进一步工程改造,可以得到 D32K 和 E18M,它们在数据集中分别排名第 13 位和第 19 位,这表明了 ESM - 2 在识别蛋白质工程关键位置方面的潜力(补充数据 1)。
在模块 II 的第一轮中,应用基于 ITC 的采样方法,在每个突变集选择四个氨基酸,总共 256 个变体,并根据 ESM - 2 给出的可能性选择其中 96 个变体。这些突变体的平均适应性为 0.744,最大适应性为 5.45,在整个 GB1 数据集中排名第 54 位,这表明该采样方法在识别高适应性变体方面是有用的(补充数据 2)。第二轮的平均适应性达到 1.97,显著高于第一轮,这表明了监督式 MLP 模型的显著效果。随后的轮次也显示出逐步改进:第二轮的最大适应性达到 5.50,第三轮达到 5.73,第四轮达到峰值 6.20,从而使原始野生型蛋白质的适应性提高了 520%(图 3d 和补充数据 2)。尽管如此,最后三轮的改进并不显著,这可能是因为最初的监督式 ML 模型预测已经取得了实质性的收益,使得剩余序列空间中可用的有益突变较少。GB1 数据集中有 149361 个数据,第四轮获得的适应性值 6.20 在数据集中排名第 21 位。虽然尚未获得数据集中最大的适应性值 8.76,但这种方法显示出了在蛋白质工程任务中应用的潜力。通过湿实验室实验对模块 I 和模块 II 进行了进一步的综合评估,详细结果在以下部分呈现。
在这项工作中,浙江大学的研究人员专注于对詹氏甲烷球菌对氰基苯丙氨酸 tRNA 合成酶(MjTyrRS)进行工程改造,以提高非规范氨基酸(ncAAs)的掺入效率。通过检测 ncAA 对 sfGFPUAG2 基因的抑制作用来测量酶活性,这通过测量共表达 sfGFP2TAG 和 pCNF - RS(MjTyrRS 的一种变体)的细胞的荧光强度来研究。ML 模型设计蛋白质并将其发送到生物铸造厂进行突变体构建和测试。由于定点诱变是蛋白质工程中常用的方法,研究人员开发了一种高度简化、稳健且通用的流程,使用 QuikChange 方法进行自动化定点诱变,以及基因转化、蛋白质表达和酶生化表征。
QuikChange 方法使用 30 - 35 个碱基的大引物,中间包含预期的突变碱基,以扩增整个重组质粒。在转化前,使用 DpnI 处理去除甲基化的亲本质粒。在初始步骤中,一个 Python 脚本在接收到来自 ML 模型的 96 个单突变序列后设计所有引物,然后将其转发给供应商进行合成。使用自动化工作站(Evo)进行 PCR 制备,PCR 板随后由板封仪(ALPS)密封,以便在自动热循环仪中进行 PCR 反应(图 4a)。之后,通过自动化板封去除装置(Xpeel)打开板,并使用声学液体处理仪(Echo)进行 DpnI 消化。含有用于酶活性测量的 sfGFP2TAG 质粒的 BL21 (DE3) 感受态细胞与 PCR 产物在自动化工作站(Evo)中混合并培养 1 小时。在自动化工作站(Fluent)中,使用 8 通道移液系统将细胞喷洒到 8 孔琼脂平板上进行转化子平板接种。平板由微孔板
生物通微信公众号
知名企业招聘