机器学习助力蛋白质工程：优化核酸酶用于慢性伤口治疗

《Cell Systems》：Engineering highly active nuclease enzymes with machine learning and high-throughput screening

【字体：大中小】 时间：2025年03月13日 来源：Cell Systems 9.0

编辑推荐：

　　本文介绍 TeleProt 框架，融合进化与实验数据设计蛋白质，优化核酸酶，助力慢性伤口治疗。

一、蛋白质工程的发展与挑战

蛋白质工程在工业和治疗领域意义重大，能为众多应用带来创新变革。其过程通常分为发现和优化两个阶段，前者寻找具备一定活性的候选蛋白，后者提升蛋白的各项属性，如抗体的结合强度、酶的催化活性、热稳定性和立体选择性等。

在蛋白质优化的技术手段中，定向进化（DE）是传统的标准方法，它通过体外选择和诱变对基因型库进行迭代改进，经其优化的蛋白质在工业和治疗领域多有应用。然而，DE 存在明显的局限性，它难以跨越蛋白质适应度景观中的山谷，当库的多样性下降时，还可能过早收敛，导致优化效果不佳。

为了克服 DE 的不足，机器学习引导的定向进化（MLDE）应运而生。MLDE 通过多轮的数据收集、建模以及模型引导的序列生成来进行蛋白质优化，在多种蛋白质工程任务中都展现出了良好的效果。不过，目前直接对比 DE 和 MLDE 在多轮高通量实验中的表现的研究较少，多数相关案例研究存在实验通量低、仅进行单轮实验等问题，难以可靠地推断出在高通量优化场景下 MLDE 是否优于 DE，而且现有的为设计小型文库开发的 MLDE 技术也难以直接应用于大型文库的设计。

二、TeleProt 框架：融合进化与实验数据的创新工具

本文重点介绍了 TeleProt 这一创新的 MLDE 框架，它巧妙地平衡了来自天然同源物的进化数据和多轮实验积累的蛋白质适应度数据。研究人员以核酸酶 NucB 为模型系统，利用 TeleProt 框架对其进行工程改造，旨在提升 NucB 在 pH 7 环境下的催化活性，使其能更好地应用于慢性伤口护理。

NucB 由地衣芽孢杆菌自然分泌，可降解生物膜形成所需的细胞外 DNA，在慢性伤口护理和抗生物污染方面具有潜在应用价值。但 NucB 在 pH 7 时的酶活性相较于其天然的碱性 pH 9 环境下降约 80% ，因此提高其在 pH 7 的活性成为将其应用于伤口愈合治疗的关键前提。

TeleProt 框架的设计思路十分精巧。首先，它基于天然 NucB 同源物、先前实验数据或两者的结合来训练模型，这些模型能够提供评估酶质量的获取函数、预测新型 NucB 变体的采样分布。接着，在候选生成阶段，通过 “提议分布” 或 “局部搜索” 等方式寻找具有高获取函数分数的新型变体，并将搜索限制在 “信任区域” 内，以避免生成不合理的高分数候选变体。最后，在批次选择阶段，通过控制变体的 “外推分数” 分布和选择具有不同突变的变体，实现探索和利用的平衡，从而挑选出多样化的候选变体进行筛选。

三、研究方法与实验流程

在实验过程中，研究人员运用了多种方法来实现对 NucB 的优化和评估。

在模型构建方面，采用了卷积神经网络（CNN）、变分自编码器（VAE）和岭回归模型这三类模型。CNN 模型基于实验数据进行训练，用于分类预测酶的活性；VAE 模型结合实验和进化数据，可作为提议分布或获取函数；岭回归模型则依据实验数据来推导提议分布。

为了生成候选变体，研究人员采用了随机局部搜索的方法。以野生型（WT）或前几轮实验的高活性变体为起始点，通过不同的局部搜索策略逐步构建变体，如单突变游走、子采样单突变游走和正则化进化等，同时将搜索范围限制在信任区域内，以确保变体的可靠性。

在批次选择环节，研究人员通过定义外推分数、距离分层采样以及带有突变使用过滤的距离分层采样等策略，从众多候选变体中挑选出既具有多样性又符合实验需求的变体。例如，在距离分层采样中，根据变体与 WT 的突变数量进行分组，按照目标分布从每组中选择具有最高获取函数分数的变体；在带有突变使用过滤的距离分层采样中，利用贪心算法，在满足距离分布的前提下，限制每个突变在文库中的出现次数，从而保证变体的多样性。

研究人员还开展了多项对比实验。独立运行的 DE 实验，通过两轮命中选择和体外诱变来优化 NucB；命中重组（HR）实验，通过计算机模拟体外命中堆叠，设计变体并与 ML 实验数据合并分析；零样本（ZS）设计实验，利用天然 NucB 同源物模型设计变体，探索在无先前实验数据的情况下能否提升 NucB 的活性。此外，还运用超高通量微流体平台对大量 NucB 变体的催化活性进行同步测量，通过将变体转化到枯草芽孢杆菌中并封装在液滴内，利用核酸酶底物与荧光的关系，依据液滴荧光强度筛选高活性变体，同时创建基因型 - 表型数据集。

四、实验结果：TeleProt 框架的卓越性能

实验结果充分展示了 TeleProt 框架在蛋白质优化方面的显著优势。

在酶活性提升方面，经过两轮 ML 引导设计发现的最佳酶（ML3），其活性显著优于经过两轮 DE 发现的最佳酶（DE3）。ML3 的最佳变体（A63P，A73R，D74H，I84Y）活性提高了 19 倍，而 DE3 的最佳变体（A63S，D64S，A73R）活性提高了 12 倍，两者均超过了将 NucB 活性恢复到其在 pH 9 时最佳活性水平的目标，其中 ML3 酶的活性是 WT 在 pH 9 时的 2.4 倍，DE3 最佳变体的活性是 WT 在 pH 9 时的 1.5 倍。并且，ML3 变体在降解生物膜方面表现出色，在 1 - μM 酶浓度下，可降解 71% ± 2% 的生物膜，而 WT 仅能降解 13% ± 3% 。

从发现高活性变体的能力来看，ML 在多轮实验中表现优异。在第四轮设计（ML4）中，ML4 - MBO - DNN 方法在发现活性高于 A73R 的变体方面，命中率显著高于 HR4。在 ML4 - MBO - DNN 设计的 1356 个变体中，有 52 ± 7 个变体活性高于 A73R（命中率 3.9% ± 0.5%），而 HR4 设计的 1540 个变体中，仅有 7 ± 4 个变体活性高于 A73R（命中率 0.5% ± 0.2%）。在发现活性高于 WT 的变体方面，ML4 - MBO - DNN 同样表现突出，其命中率达到 84.5% ± 1.1%，而 HR4 仅为 58.0% ± 0.1% 。此外，ML4 还发现了 31 个活性明显优于 A73R，D74S 的变体，其中 29 个由 MBO - DNN 技术设计，且 21 个变体的突变数大于 9。

ML 设计的变体在多样性方面也具有明显优势。通过对命中变体进行序列相似性聚类分析发现，ML4 - MBO - DNN 的命中变体比 HR4 的更具多样性。例如，HR4 的所有命中变体彼此之间的突变数在 7 个以内，而 ML4 - MBO - DNN 的 52 个命中变体在汉明距离为 10（簇直径 = 10）时仍能保持 10 个不同的簇。而且，ML4 - MBO - DNN 命中变体的突变分布更为广泛，涉及蛋白质的 DNA 界面、所有二级结构域和无序环等 38 个位置，而 HR4 命中变体的突变主要集中在 10 个位置。

研究还发现，ML 技术能够设计出与训练数据有较大差异的高活性变体，展示了模型的外推能力。ML4 发现了许多突变数远超先前训练数据中高活性变体的命中变体，且这些变体并非简单地重组已知的活性突变，还包含了之前未在所需活性水平变体中出现的新突变。例如，在 G4 之前，未观察到活性大于 WT 且突变数大于 9 的变体，也未观察到活性大于 A73R 且突变数大于 7 的变体，但 ML4 发现了活性大于 A73R 且突变数高达 15 的变体。通过对比使用不同模型的实验结果发现，考虑非加性效应的模型有助于提高发现高活性变体的命中率，这表明模型对上位性（epistasis）的推断能力对 ML 的外推能力至关重要。

在初始文库设计方面，ZS 模型表现出色。通过实验发现，基于天然 NucB 同源物的 ZS 设计能够生成比易错 PCR（epPCR）更好的初始文库。ZS 设计的变体功能命中率显著高于 epPCR（51.0% ± 1.8% 对 10.9% ± 0.9%），且在包含更多突变的情况下，功能变体的多样性更高。同时，ZS 文库在发现活性超过 WT 的变体方面也具有更高的命中率（10.9% ± 0.9% 对 1.6% ± 0.1%）。此外，尽管 ZS 预分选文库的变体数量远少于 G1（1235 对 9441），但在发现有望出现在活性优于 WT 变体中的突变数量上，两者相当（168 对 150），这表明 ZS 采样在实验通量有限的情况下具有很大的优势。

研究人员还发布了包含 55760 个变体的基因型 - 表型数据集，该数据集涵盖了 ML 和 HR 实验的所有数据，是目前探索最深的公共酶适应度数据集之一。与现有公共数据集相比，它包含了所有单突变变体以及数千个多突变组合，其中许多多突变变体具有活性。该数据集的发布为推动 ML 方法的发展提供了重要的数据支持，有望助力开发出能进行更精准外推的 ML 方法。

五、研究讨论与展望

综合来看，TeleProt 框架与超高通量微流体筛选平台的结合，成功发现了比 NucB WT 在 pH 7 时比活性高 19 倍的 NucB 变体，为利用该酶在生理 pH 下降解慢性伤口生物膜奠定了关键基础。同时，研究表明 ML 在发现高活性、多样化变体方面优于 DE，ZS 设计也能够生成高质量的初始文库。

基于实验结果，研究人员提出了未来使用 TeleProt 框架开展研究的建议。在实验初期，可采用 ZS 设计生成初始变体文库，为后续优化提供多样化的活性变体；在积累一定实验数据后，使用 ProSAR + Screen 方法，平衡实验数据和天然同源物先验信息，设计高质量文库；当数据足够时，运用 MBO - DNN 方法，设计远离 WT 的多样化、高活性文库，以满足下游对蛋白质表达、免疫原性和稳定性等方面的要求。

TeleProt 框架与当前蛋白质功能建模的发展具有很强的互补性。蛋白质语言模型等可应用于 ProSAR + Screen 或 MBO - DNN 中，提高模型的性能；从物理学、蛋白质结构或相关实验中获取的先验知识，也有助于提升模型对远距离序列的外推能力。虽然设计明确氨基酸序列的成本略高于 DE，但随着合成生物学成本的不断降低，以及实验测量和数据分析技术的改进，ML 在蛋白质优化领域的应用前景将更加广阔。

TeleProt 框架不仅适用于酶的优化，还可自然扩展到其他有天然同源物的蛋白质以及能进行高通量检测的分子功能研究中。随着合成生物学和计算技术的不断进步，ML 有望大幅缩短从初始目标到优化蛋白质的时间，为生命科学和健康医学领域带来更多创新成果。

未来，蛋白质优化的 ML 方法将朝着更加标准化和目标无关的方向发展，但创建基因型 - 表型数据集仍需针对具体应用开发特定的检测方法。例如，本研究中基于荧光的微流体方法在其他蛋白质功能研究中可能并不适用。尽管如此，随着技术的不断突破，ML 在蛋白质工程领域的潜力将得到更充分的挖掘，为解决生命科学和健康医学领域的诸多难题提供有力的支持。

一、蛋白质工程的发展与挑战

二、TeleProt 框架：融合进化与实验数据的创新工具

三、研究方法与实验流程

四、实验结果：TeleProt 框架的卓越性能

五、研究讨论与展望

热点排行