编辑推荐:
研究人员针对传统酶催化研究局限,开展数据驱动的酶催化研究,发现新方法,助力生物技术发展。
数据驱动的酶催化变革:从反应、通路到酶的深度解析
在生物科技的奇妙世界里,酶催化就像一把神奇的钥匙,能够加速各种化合物新合成途径的发现,对药物研发、农业生产以及食品工业都有着深远影响。比如在制药领域,它能帮助合成结构复杂的药物分子;在农业中,或许能助力培育更具营养价值的作物;在食品工业,可用于开发新的食品加工工艺。
然而,传统的酶催化研究方法就像是在黑暗中摸索。一方面,蛋白质工程技术虽有进步,像定向进化(directed evolution)能优化酶的特性,但依靠传统实验方法探索生物转化的各种可能性时,效率极为低下,还过度依赖专家知识。另一方面,现有的生物数据库,如 KEGG、MetaCyc 等,虽然包含了大量信息,却存在冗余、不完整的问题,而且许多数据库聚焦于自然发生的酶促过程,忽视了化学酶促生物转化,这使得研究人员在获取全面、准确的数据时困难重重。
为了打破这些困境,澳门理工大学应用科学学院的研究人员展开了深入研究。他们以数据驱动的方法为核心,从反应、通路和酶三个层面进行探索,相关研究成果发表在《Cell Reports Physical Science》上。
研究人员采用了多种关键技术方法。在数据处理与表示方面,针对酶催化的不同层次,运用了简化分子输入线输入系统(SMILES)、向量表示、模板表示、图表示等多种数据表示方法,将复杂的酶催化信息转化为计算机易于处理的形式。在模型构建上,利用深度学习(DL)技术构建预测模型,涵盖反应层面的正向合成、逆合成预测和反应注释,通路层面的反应整合、从头通路扩展和通路评估,以及酶层面的功能注释、基于突变的优化和从头设计等模型。
在反应层面建模研究中,反应层面建模涵盖正向合成预测、逆合成预测和反应注释等任务。
- 模板法:传统的模板法依赖专家知识手动提取模板,效率低且难以覆盖大规模数据集。如今,自动化模板管理方法不断涌现,比如基于半径的方法、图神经网络(GNN)等,可自动识别反应中心和相关上下文。在模板数字化方面,Bond Electron Matrix(BEM)和 SMILES Arbitrary Target Specification 语言(SMARTS)为捕捉反应模板的关键特征提供了独特框架。在模板选择上,基于分子相似性的方法,如 RDEnzyme 使用 Dice 相似性量化分子相似性,能更高效地选择合适模板。
- 无模板法:无模板法借助神经网络进行端到端学习,不受已知反应格式的限制。像 Litsa 等人利用预训练的 Transformer 模型进行化学反应预测;Kreutter 等人将酶文本描述融入 Transformer 模型,提升了对映选择性转化的处理能力;Probst 等人用酶的 EC 编号丰富数据层次信息,都取得了不错的成果。
- 反应注释:反应注释旨在预测反应的相关信息,如 EC 编号、动力学参数等。准确预测这些参数对指导进化、分析吸收、分布、代谢、排泄和毒性(ADMET)以及优化代谢途径意义重大。例如,REME 网络工具可预测反应的最佳温度和 pH;Xing 等人利用多头注意力机制直接映射可能的酶,避免了 EC 编号系统带来的复杂查询问题。
通路层面建模旨在确定目标分子的完整合成途径。
- 反应整合:自然通路存在动力学慢、原子经济性低等问题,难以满足生物工程需求。基于图的方法和基于化学计量学的方法是反应整合的主要手段。基于图的方法通过不同的图架构识别相邻反应步骤,但要避免无关连接,如 Motwalli 等人在 Pathcre8 中排除高度连接的代谢物,Huang 等人通过追踪原子基团运动减少无关连接。基于化学计量学的方法,如通量平衡分析,利用线性规划算法探索解决方案空间,计算出理想产物的最佳合成途径。
- 从头通路扩展:从头通路扩展通过连接单步逆合成模型生成的潜在反应来构建新通路。根据搜索算法不同,可分为无信息搜索和有信息搜索。无信息搜索如深度优先搜索(DFS)、广度优先搜索(BFS)等,虽能系统遍历图,但计算负担大,易陷入局部最优解。有信息搜索如蒙特卡罗树搜索(MCTS)、Retro搜索等,依赖当前节点与目标之间的距离估计,能减少偏差,避免局部最优,其中 MEEA搜索整合了 MCTS 和 Retro * 搜索的优点,效果更佳。
- 通路评估:开发综合评估系统对通路进行评估至关重要。反应的热力学参数(如 ΔrG)是常用的评估标准,负值表示反应自发进行。例如,Wang 等人开发的 dGPredictor 可估计 ΔrG;NovoPathFinder 采用多种指标计算通路综合得分;PaRoutes 通过计算预测通路与真实通路的树编辑距离来评估预测质量。
酶层面建模聚焦于设计具有特定功能的酶。
- 酶的功能注释:酶的功能注释旨在为酶赋予潜在功能,EC 编号是重要的注释系统。计算策略主要包括基于相似性的模型和基于深度学习的模型。基于相似性的模型,如 BLASTp,虽能快速推断,但难以检测与查询序列相似度低的同源物,且高序列匹配不一定意味着功能相似。基于深度学习的模型,如 DeepEC、ProteInfer 等,通过卷积神经网络(CNN)、Transformer 等技术,有效解决了这些问题。Yu 等人的对比学习方法 CLEAN,还解决了 EC 编号数据集不平衡的问题。
- 基于突变的酶优化:突变是改变酶功能的重要手段。定点突变(SDM)通过识别活性位点,替换临近位点的氨基酸来改善酶的功能,如 RXNAAMapper 利用语言模型预测活性位点,EasIFA 通过特殊的注意力机制提升预测效率和准确性。定向进化则进行随机突变和重组,然后筛选所需特性,数据驱动的方法能加速这一过程,如主动学习利用先前实验数据迭代训练模型,选择最有潜力的变体。
- 酶的从头设计:与基于突变的优化不同,从头设计不依赖进化起点,而是从定制的催化功能出发,设计全新的酶。传统方法先确定功能片段,再寻找合适的蛋白质支架,如 Blueprint 方法定义二级结构元素的排列和长度,SEWING 策略则更多利用自然存在的片段。近年来,完全数据驱动的设计理念兴起,如 “蛋白质幻觉” 和扩散模型,直接从数据库中学习。例如,RFdiffusion 能生成具有复杂活性位点的酶;EnzyGen 可通过识别关键功能位点和底物结合特征,设计高效的酶;EnzymeFlow 利用基于流匹配的生成模型,为特定底物创建催化口袋。
研究结论与讨论部分表明,数据驱动的方法在酶催化研究中成果显著。它能精准构建反应、通路和酶,提高实验的可重复性和效率,增加酶催化设计成功的概率。但目前该领域仍面临挑战,如数据来源有限,许多数据库无法满足工业需求;现有数据驱动模型未充分考虑工业优化目标和复杂实验条件。未来研究可从开发可解释的单步反应模型、引入多目标优化、采用先进设计方法等方向展开。这一研究为酶催化领域带来了新的曙光,有望推动生物技术在更多领域取得突破,让酶催化更好地服务于人类社会。