深度学习结合 CataPro:稳健的酶发现与工程新突破

《Nature Communications》:

【字体: 时间:2025年03月21日 来源:Nature Communications

编辑推荐:

  在酶动力学参数预测中,现有模型存在精度低或过拟合导致泛化能力差的问题。研究人员开展基于深度学习的酶发现和工程研究,开发了 CataPro 模型。结果显示,该模型在预测酶动力学参数上精度和泛化能力出色,有助于酶的发现与改造,推动相关领域发展。

  在生物催化的广阔天地里,酶就像一个个神通广大的 “小工匠”,在制药、化工、食品等众多工业领域发挥着关键作用。比如在制药过程中,酶能够精准地催化特定反应,合成出复杂的药物分子;在食品加工里,它又能巧妙地改变食物的风味和质地。然而,野生型酶常常 “不太给力”,无法满足工业生产日益严苛的需求。同时,现有的酶动力学参数预测模型也面临着严峻挑战,有的精度不高,有的容易过拟合,导致泛化能力差,就像戴着一副模糊的眼镜,难以准确看清酶的真实 “能力” 。这使得开发能够精准预测酶动力学参数、高效发现新酶并对其进行优化改造的方法,成为科研人员亟待攻克的难题。
为了解决这些棘手的问题,山东大学、上海泽力生物科技有限公司、中国科学院深圳先进技术研究院等机构的研究人员携手展开了深入研究。他们的研究成果发表在《Nature Communications》上,为酶研究领域带来了新的曙光。

研究人员首先构建了无偏数据集,以此来更客观地评估现有模型的实际表现。接着,基于预训练模型和分子指纹技术,他们开发出了名为 CataPro 的深度学习模型,用于预测酶的周转数( )、米氏常数( )和催化效率( )。

在研究过程中,研究人员用到了多种关键技术方法。在数据集构建方面,从 BRENDA 和 SABIO - RK 数据库收集数据,经清洗、聚类等处理,构建无偏十折交叉验证数据集。在模型构建上,利用 ProtT5 - XL - UniRef50 等模型对酶和底物进行编码,构建 CataPro 模型。评估模型时,采用皮尔逊相关系数(PCC)、斯皮尔曼相关系数(SCC)和均方根误差(RMSE)等指标。

下面来看看具体的研究结果:

  • CataPro 模型概述:研究人员精心收集整理了来自 BRENDA 和 SABIO - RK 数据库的数据,构建出初始数据集,并进一步提取样本构建数据集。为了保证评估的公平性,他们基于蛋白质序列相似性对数据进行聚类,成功创建了无偏十折交叉验证数据集。在预测时,CataPro 模型采用了独特的策略,先利用预训练的模型进行初步预测,再通过基于神经网络的校正项来优化预测结果,有效提高了预测的准确性。
  • CataPro 在预测中的性能:在无偏数据集上,CataPro 模型展现出了卓越的性能。预测时,其 PCC、SCC 和 RMSE 值分别为 0.497、0.495 和 1.329 ,显著优于 DLKcat 和 UniKP 等模型;预测时,CataPro 的 PCC、SCC 和 RMSE 分别达到 0.633、0.629 和 0.998 ,略胜 UniKP 一筹。研究还发现,预测比预测更具挑战性,因为涉及到酶催化的整个复杂过程,而主要与酶和底物的结合强度有关。此外,研究人员对不同的酶和底物表示方法进行了探索,结果表明 ProtT5 的嵌入在预测任务中表现更为出色,而在底物表示方面,MolT5 嵌入、MoleBERT 嵌入和 MACCS 键指纹的效果相近。当引入蛋白质结构特征时,对预测有一定影响,对预测影响不明显。
  • 转移学习改善预测数据集包含众多酶 - 底物对,CataPro 模型采用集成预训练模型和神经网络校正项的架构来预测 。在无偏数据集上,CataPro 的 PCC 达到 0.413,SCC 为 0.416 ,RMSE 为 1.619 ,远超 DLKcat 和 UniKP 等模型,充分证明了该模型在预测方面的有效性。
  • CataPro 增强突变排序能力:在酶工程领域,准确评估突变对酶活性的影响至关重要。研究人员提出了两个评估标准,分别是模型在反应中对所有突变的 SCC 值(用于评估模型基于动力学参数对突变进行排序的能力)和在任意两个突变中识别性能更优突变的准确率。实验结果显示,CataPro 在数据集上,突变排序能力明显优于 UniKP;在识别更优突变方面,也比 UniKP 和 DLKcat 更具优势。不过,目前 CataPro 在准确捕捉突变效应的绝对值上还存在一定局限。
  • CataPro 在外部测试数据集上的性能:为了进一步验证 CataPro 的应用潜力,研究人员收集了多个外部测试数据集进行测试。在酪氨酸氨裂解酶(TAL)同源数据集和 TAL 工程数据集中,CataPro 成功识别出了高活性的 TAL 酶和突变体;在 D - 2 - 脱氧核糖 - 5 - 磷酸醛缩酶(DERA)和 BH1352 数据集上,CataPro 也准确预测了酶活性的变化,展现出了良好的性能。
  • CataPro 在深度突变扫描数据集上的性能:深度突变扫描(DMS)技术能够在一次实验中评估大量蛋白质变体的适应性。研究人员利用 DMS 数据集对 CataPro、UniKP 和 DLKcat 等模型进行评估,结果发现 CataPro 的模型的 SCC 值接近甚至超过基于位置特异性评分矩阵(PSSM)的预测结果,突出了 CataPro 在蛋白质适应性景观预测方面的稳健性。
  • CataPro 辅助的酶挖掘和定向进化:研究人员将 CataPro 应用于香草醛生物合成的酶挖掘和定向进化研究中。通过 BLAST 检索、序列筛选、结构相似性计算等步骤,发现了一种名为 Sphingobium sp. CSO(SsCSO)的酶,其催化 4 - 乙烯基愈创木酚(4 - VG)生成香草醛的活性比初始酶 CSO2 高 19.53 倍。随后,利用 CataPro 和 PSSM 对 SsCSO 进行优化,成功获得了活性更高的突变体,其中 T216M - M351F - V384G 突变体的活性比野生型 SsCSO 高 3.34 倍,比 CSO2 高 65.23 倍,充分展示了 CataPro 在实际酶发现和工程中的强大作用。

综合来看,研究人员开发的 CataPro 模型为酶发现和工程提供了一种高效、可靠的工具。它不仅在预测酶动力学参数方面表现出色,而且在酶挖掘和定向进化等实际应用中也展现出了巨大的潜力。不过,CataPro 也存在一些局限性,例如在预测的准确性方面还有提升空间,并且目前只能处理单底物反应。未来,研究人员可以进一步优化模型,探索更有效的酶 - 底物反应建模方法,同时收集更多包含多底物反应的综合数据,以推动酶研究领域的持续发展,为工业生产提供更强大的技术支持,让酶在各个领域发挥更大的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号