基于同源基因信息与生成式建模的跨物种基因重设计:超越密码子优化的新型AI工具

《Nature Communications》:Cross-species gene redesign leveraging ortholog information and generative modeling

【字体: 时间:2026年03月04日 来源:Nature Communications 15.7

编辑推荐:

  为了克服传统密码子优化方法(仅能进行同义替换)的局限性,研究人员开发了基于Transformer的深度学习模型“OrthologTransformer”,利用大规模同源基因对数据进行训练,实现了从DNA序列层面将基因“翻译”为适应目标物种的版本,并允许引入有生物学依据的非同义突变和插入/缺失。实验证明,该模型设计的PETase酶基因在枯草芽孢杆菌中实现了更高的表达量和约10倍的产物生成,为异源基因表达和合成生物学提供了更强大的工具。

  
在现代生物技术和合成生物学领域,将一个物种的基因(比如某个能降解塑料的“神奇”酶基因)成功移植到另一个更易于培养、更适合工业生产的宿主(如大肠杆菌或枯草芽孢杆菌)中,是生产重组蛋白、药物乃至解决环境问题的关键。这一过程被称为“异源基因表达”。长久以来,科学家们为解决宿主和基因来源物种之间的“语言不通”问题,主要依赖于“密码子优化”技术。这好比将一篇中文文章中的词语全部替换成英文中最常用的同义词,但不改变句子意思。这种方法虽然有效,但有一个根本局限:它只能进行“同义替换”,绝不允许改变蛋白质本身的氨基酸序列。
然而,大自然在亿万年的进化中,早已为跨物种的基因适应提供了更巧妙的解决方案。当同一个基因(即“同源基因”)在不同的物种中演化时,它不仅会发生同义的密码子变化,还常常累积起能够改变氨基酸的“非同义突变”,甚至发生小的插入或删除。这些变化往往是基因适应新宿主环境、保持或优化其功能的关键。传统的密码子优化方法固守氨基酸序列,恰恰错过了进化赋予的这种灵活性与适应性。这就引出了本研究的核心问题:能否向大自然学习,开发一种智能工具,不仅能优化密码子使用,还能像自然进化一样,在必要时引入有益的非同义变化,从而更高效、更“原生”地实现基因的跨物种适应?
为了回答这个问题,一个研究团队在《Nature Communications》上发表了一项突破性研究。他们不再将基因设计视为单纯的同义密码子替换,而是重新定义为“DNA序列到序列的翻译任务”。研究人员开发了一个名为“OrthologTransformer”的深度学习模型。这个模型基于强大的Transformer架构,其训练“教材”是来自数千种细菌的数百万对已知同源基因。通过这种方式,模型直接从自然进化的“参考答案”中学习,掌握了何时应进行同义替换,何时可以进行保守的氨基酸改变(非同义突变),以及在何处可以插入或删除少量密码子,从而在适应新宿主基因组环境的同时,最大限度地保持蛋白质的原始功能。
关键技术方法
研究人员首先构建了大规模的细菌同源基因对数据集(来自OMA数据库,涵盖2138个物种,约497万对基因)。基于此,他们构建了OrthologTransformer模型,这是一个序列到序列(seq2seq)的Transformer模型,其独特之处在于在输入序列前添加了代表源物种和目标物种的特殊标记(token),使单个模型能处理多物种对的转换。模型采用两阶段学习策略:先在大规模多物种数据上预训练,再针对特定物种对(如PETase案例中的Ideonella sakaiensisBacillus subtilis)进行微调。对于关键应用案例(如PETase设计),他们结合了多目标蒙特卡洛树搜索(MCTS)来优化生成序列的GC含量和mRNA二级结构稳定性。在实验验证阶段,他们将设计的PETase基因序列合成并构建到枯草芽孢杆菌和大肠杆菌表达载体中,通过qPCR、Western blot、高效液相色谱(HPLC)分析降解产物以及扫描电子显微镜(SEM)观察PET膜侵蚀情况,全面评估了基因的表达水平和酶活性。
研究结果
A deep learning model for orthologous gene conversion
研究人员成功开发了OrthologTransformer模型。如图1所示,该模型接收来自源物种的编码DNA序列以及目标物种标记,通过其编码器-解码器结构,能够生成针对目标物种的预测同源序列。模型训练使其能够学习自然同源基因对中蕴含的从同义替换到保守非同义突变及插入/缺失(indels)的完整模式。
Benchmarking OrthologTransformer’s performance
在涵盖45个细菌物种、450个源-目标组合的大规模基准测试中,OrthologTransformer在密码子序列一致性上 consistently 优于传统的频率型密码子优化和最新的深度学习优化工具CodonTransformer。模型生成的序列在密码子适应指数(CAI)和GC含量分布上也更接近目标物种的天然基因。例如,在GC含量差异显著的Bacillus subtilis(43.5% GC) 和Ideonella sakaiensis(66.7% GC) 之间转换时,生成序列与目标序列的一致性从源序列的0.221提升到了0.424。这些结果表明,仅靠同义替换的优化是不够的,OrthologTransformer通过整合进化信息,实现了更有效的宿主适应。
Designing a PETase enzyme for B. subtilis
作为一个概念验证,研究团队应用OrthologTransformer解决一个具体的生物技术挑战:将来源于Ideonella sakaiensis的PET塑料降解酶(PETase)基因适配到工业常用宿主Bacillus subtilis中。他们生成了12个不同的PETase基因变体(AI-S1至AI-L5),这些变体引入了不同程度的插入、删除、同义及非同义替换。其中,变体AI-L2在结构预测中显示出高TM-score(0.98),其GC含量(37.0%)更接近枯草芽孢杆菌基因组,并具有有利的mRNA二级结构。
Experimental validation of AI-designed PETase in B. subtilis
实验验证表明,所有AI设计的PETase基因均能在枯草芽孢杆菌中成功转录和表达。Western blot检测到分泌的PETase蛋白,其中AI-L2等变体的蛋白水平与甚至超过传统密码子优化(CO)对照。最关键的功能实验——PET降解测定显示,表达AI-L2变体的菌株在第3天产生的PET主要水解产物MHET(mono (2-hydroxyethyl) terephthalate)量约为其他菌株的3倍,表现出显著更高的降解活性(p< 0.05)。扫描电镜图像直观地显示,经AI-L2菌株处理后的PET薄膜表面出现了大量细菌细胞大小的腐蚀坑,而对照组的薄膜则基本完好。体外酶动力学测定进一步证实,AI-L2变体的催化效率(kcat/Km)显著高于野生型和传统密码子优化版本。
Another gene-host experiment in a Gram-negative host (Escherichia coli)
为了评估模型的普适性,研究人员还将PETase基因适配到大肠杆菌中。结果显示,即使在不引入任何氨基酸改变的情况下,OrthologTransformer设计的变体(如AI-E2)在mRNA转录水平和蛋白表达量上仍优于传统密码子优化版本,并在PET降解实验中表现出更强的活性,证明了该方法在不同GC含量和调控背景的细菌宿主中均具有效力。
dN/dS-informed analysis
为探究模型所引入变化的进化合理性,研究人员进行了位点特异性的dN/dS(非同义替换率与同义替换率之比)分析。结果显示,OrthologTransformer引入的氨基酸替换显著富集在dN/dS值较高(即纯化选择压力较弱)的进化可变位点,而在高度保守(强纯化选择)的位点则较少引入变化。这表明模型本能地学会了模仿自然进化的模式,优先改变那些在进化历史上被允许变化的位点,从而更好地保持蛋白质功能。
研究结论与意义
这项研究成功开发了OrthologTransformer,一种能够利用自然同源基因信息进行跨物种基因重设计的AI工具。它的创新之处在于将基因适应问题重新定义为DNA序列的“翻译”任务,并通过监督学习直接从进化“教科书”中掌握基因适应的完整规律,包括同义替换、保守的非同义突变以及小的插入/缺失。这突破了传统密码子优化“冻结”氨基酸序列的根本限制。
研究表明,OrthologTransformer设计的基因序列在密码子使用、GC含量等序列特征上更接近目标宿主的天然基因,并在大规模基准测试中显著优于现有方法。以PETase为实例的成功验证最具说服力:AI设计的基因变体不仅在枯草芽孢杆菌中实现了高表达和高分泌,其酶活性和塑料降解效率更是达到了传统方法无法企及的高度。dN/dS分析进一步从进化角度佐证了模型设计的合理性。
这项工作的重要意义在于,它架起了进化生物学与合成生物学之间的桥梁,提供了一种全新的、受进化启发的基因工程范式。OrthologTransformer不再是一个简单的密码子优化器,而是一个“同源基因设计师”,它能够生成在目标宿主中看起来和用起来都更“原生”的基因版本。这为高效生产工业酶、生物药物、开发环境修复解决方案乃至未来的mRNA设计等领域开辟了新的可能性,代表了人工智能驱动生物技术设计向前迈进的重要一步。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号