《Nature Communications》:Sequence-based generative AI design of versatile tryptophan synthases
编辑推荐:
本刊推荐:针对天然酶功能起始点筛选困难的瓶颈问题,研究人员开展了基于生成式人工智能(GenSLM模型)设计色氨酸合成酶β亚基(TrpB)的研究。结果表明,AI生成的TrpB酶在大肠杆菌中表达良好,具有高催化活性和热稳定性,且对非天然底物展现出超越天然酶及实验室进化酶的广谱底物混杂性。这项工作为加速生物催化剂发现提供了新范式。
在追求绿色可持续化学合成的道路上,酶作为高效、专一的生物催化剂展现出巨大潜力。然而,要将天然酶成功应用于工业生产,通常需要先通过定向进化(Directed Evolution, DE)等技术对其进行优化改造。这个过程的第一个关键瓶颈,就是找到一种对目标反应至少具有微弱初始活性的“起始酶”。目前,寻找这种起始酶主要依赖两种经验性策略:要么从庞大的天然酶库中筛选,要么对已知的某个酶进行突变。前者耗时耗力且成功率低,因为天然酶往往表达量不高或特异性过强;后者则受限于有限的序列探索空间,且容易产生大量无活性的突变体。这种“万事开头难”的局面,严重制约了酶催化剂在工业界的广泛应用。有没有一种方法,能够像“按需设计”一样,快速生成大量具有潜在活性的新型酶,为后续的定向进化提供一个高质量的高起点库呢?
近年来,人工智能(AI)技术在蛋白质设计领域取得了突破性进展。其中,蛋白质语言模型(Protein Language Models, PLMs)通过分析海量蛋白质序列数据,学会了“编写”新的、可能具有功能性的蛋白质序列。这为上述瓶颈问题提供了一个充满希望的解决方案。在这篇发表于《Nature Communications》的工作中,由Théophile Lambert、Amin Tavakoli、Frances H. Arnold(2018年诺贝尔化学奖得主)和Anima Anandkumar等领衔的研究团队,报道了他们利用一种名为GenSLM的生成式AI模型,成功设计出功能多样且性能优异的色氨酸合成酶β亚基(Tryptophan Synthase β-subunit, TrpB)。这些AI设计的酶不仅保持了天然酶的核心功能,更令人惊喜的是,它们中的佼佼者甚至超越了经过多年实验室进化才得到的优秀工程酶,展现出前所未有的底物广谱性。
研究人员开展此项研究,旨在验证生成式AI是否能够超越简单地模仿天然序列,创造出兼具高活性和新颖功能的实用酶催化剂。他们选择TrpB作为模型酶进行验证,是因为它是一个机制复杂、具有重要工业应用价值但天然底物范围狭窄的经典酶。研究团队利用在1.1亿个原核生物基因上预训练的GenSLM模型,并专门使用3万个天然trpB基因序列对其进行微调。随后,模型生成了大量全新的trpB基因序列。经过一系列计算过滤(如长度筛选、结构完整性评估pLDDT>0.8、序列新颖性控制等),他们最终挑选出105个与天然TrpB序列相似度在40%到90%之间的代表性序列进行实验验证。
关键实验技术主要包括:1) 基于GenSLM模型的序列生成与微调;2) 使用ESMFold进行蛋白质结构预测和pLDDT评分以过滤序列;3) 基因合成与分子克隆;4) 在大肠杆菌中进行蛋白质表达与纯化;5) 使用液相色谱-质谱联用(LC-MS)进行酶活性和底物混杂性高通量筛选;6) 热稳定性分析(热变性实验)。
结果
GenSLM-TrpBs的生成
研究人员利用基于 codon(密码子)水平的GenSLM模型生成TrpB序列。分析表明,生成的序列在序列空间中的分布与天然TrpB序列高度重叠,并且保留了关键的保守残基(如与辅因子PLP共价结合的催化性赖氨酸),说明模型成功捕捉到了维持TrpB结构和功能的核心约束。
GenSLM-TrpBs能够催化色氨酸合成并具有高稳定性和稳健表达
实验结果显示,在105个测试的AI设计酶中,有11个在室温下、7个在75°C下显示出明确的色氨酸合成活性。多个GenSLM-TrpB的活性与经过实验室进化获得的著名stand-alone(独立行使功能,不依赖其天然伙伴TrpA亚基)催化剂PfTrpB-0B2相当甚至更优。其中,酶230在粗提液中的活性在室温和75°C下均超过了PfTrpB-0B2。对12个有活性的酶进行纯化后,发现它们均能高水平表达(平均纯化产量达84 mg/L培养液),并表现出多样化的热稳定性(熔解温度Tm在40°C到70°C以上不等)。
GenSLM-TrpBs展现出比天然对应物更广的底物混杂性
研究人员使用7种非天然底物(如4-NO2-吲哚、5-NO2-吲哚、萘酚、L-苏氨酸等)对生成的酶库进行筛选。结果非常显著:对于每一种测试底物,至少有一个GenSLM-TrpB能检测到活性。与天然TrpB相比,许多AI设计的酶(尤其是与天然序列相似度在70-90%之间的)表现出更广泛的底物接受度。酶230尤为突出,它能催化所有7种非天然底物的反应,产率从5%到99%不等,这种广谱的混杂性在天然TrpB中是前所未有的。对于工业上重要的5-氟色氨酸合成,酶230、1617和3599也实现了极高的产率(分别为99%, 97%, 60%),显著优于天然酶,几乎达到了PfTrpB-0B2的定量产率水平。
GenSLM引入了超越天然序列多样性的功能改进
为了探究AI设计酶优异性能的来源,研究人员将其最出色的设计——酶230,与其最接近的天然同源物(来自Neobacillus drentensis的NdTrpB,序列相似度80.5%)进行了直接比较。尽管两者结构高度相似(主干RMSD仅0.36 ?),活性中心残基几乎完全保守,但功能上却存在巨大差异。NdTrpB在75°C下活性急剧下降,且仅对少数已知可被天然TrpB接受的底物有微弱活性。而酶230则在高温下保持活性,并能高效催化所有挑战性底物的反应。这强有力地证明,酶230的卓越性能并非简单地复制了某个未知天然酶的特性,而是GenSLM模型真正“创造”出的新功能。
讨论与结论
这项研究成功地证明,基于DNA序列的生成式AI模型GenSLM能够设计出具有实际应用价值的酶催化剂。所生成的GenSLM-TrpBs不仅具备良好的表达水平、稳定性和核心催化活性,更关键的是,它们普遍展现出比天然同源物更广泛的底物混杂性。其中一些佼佼者(如230)的催化效率和底物范围甚至超越了经过多轮定向进化获得的工程酶。
这项工作的重要意义在于:首先,它将生成式AI在蛋白质设计中的应用从相对简单的de novo(从头设计)蛋白质推进到了像TrpB这样具有复杂机制(涉及辅因子、构象变化、多步催化循环)的天然酶家族的重新设计,拓展了AI蛋白设计的边界。其次,研究结果表明,AI设计酶可能具有一种“先天优势”——由于它们没有经历数百万年自然选择对非必需(甚至有害)活性的严格剔除,其活性位点可能更具“包容性”,从而更易于产生底物混杂性。这与祖先序列重建(Ancestral Sequence Reconstruction, ASR)中观察到的现象有异曲同工之妙。最后,也是最实际的价值在于,这种AI驱动的设计流程(从设计、基因合成到实验验证)可以压缩至短短一个月内完成,为快速获得高性能生物催化剂提供了一个极其高效的平台。这些高质量的AI设计酶库本身就可作为理想的起始点,用于探索新底物或进化新功能,从而大幅降低后续定向进化的实验负担,甚至在某些情况下可能完全跳过进化步骤,直接获得可投入应用的催化剂。
总之,该研究展示了生成式AI在酶工程领域的巨大潜力,为克服生物催化剂发现中的初始瓶颈提供了一种强大、通用的新策略,有望显著加速可持续生物制造和药物合成等领域的发展。