《Biotechnology Advances》:Designing prokaryotic gene expression regulatory elements: From genomic mining to artificial intelligence-driven generation
编辑推荐:
基因表达调控元件(GEREs)设计策略包括基因组挖掘、模块化重组及深度学习驱动方法,系统比较了不同策略的适用性、优势与局限性,探讨了上下文依赖性和数据不平衡等挑战,提出优化微生物细胞工厂表达调控的未来方向。
Xuan Zhou|Wenyan Cao|Chao Huang|Xiaojuan Zhang|Shenghu Zhou|Yu Deng
江南大学生物技术学院与教育部工业生物技术重点实验室,中国无锡214122
摘要
基因表达调控元件(GEREs)在控制基因转录和翻译中起着关键作用。设计具有精确且可调活性的GEREs仍然是合成生物学中的一个主要挑战。在过去几十年中,工程策略已经从经验性的序列挖掘和随机突变发展到越来越多地基于生物物理模型和人工智能的理性方法。在这篇综述中,我们系统地探讨了每种GERE类别的设计原则、代表性研究及实施策略,强调了挖掘、模块化重组、靶向突变和深度生成建模如何促进功能性调控元件的发展。我们进一步讨论了这些策略的优势和局限性,并为通过微调基因表达来优化微生物细胞工厂的生物生产提供了实用指导。
引言
基因表达调控元件(GEREs),如启动子、终止子和5′非翻译区(5′ UTRs),在合成生物学中控制转录和翻译方面起着至关重要的作用(Balzer Le等人,2020年;Choe等人,2022年;LaFleur等人,2022年)。启动子是基因表达的主要调控元件,通过调控RNA聚合酶的结合来启动转录(Haberle和Stark,2018年;Matthew和Hal,2018年;von Hippel,1998年)。终止子定义了转录边界并防止转录贯穿,从而维持转录本的稳定性(Kriner等人,2016年;Ray-Soni等人,2016年;You等人,2023年)。5′ UTRs主要通过翻译起始来调节基因表达,这一过程受到序列和结构特征的影响,例如核糖体结合位点(RBSs)、RNA温度计、核糖开关和脚扣开关(Hur等人,2020年;Narberhaus,2010年;Sterk等人,2018年)。值得注意的是,核糖开关根据其表达平台可以调节转录或翻译(Huang等人,2010年;Torgerson等人,2018年)。这些调控元件共同精细调节蛋白质合成,以平衡代谢流并支持工程生物系统中的适应性控制(Andreasson等人,2020年;Cazier和Blazeck,2021年)。
修改GEREs序列可以改变它们的性质(Rajkumar等人,2016年),并可用于调节目标基因的表达(Yu等人,2021年)。通常使用基因组挖掘、功能区域组合(Ermolaeva等人,2000年)、突变和筛选(Han等人,2019年)以及基于模型的理性设计(Santos-Navarro等人,2021年)等方法获得具有不同性质的GEREs。基因组是天然GEREs的丰富来源(Ireland等人,2020年;Yuan等人,2017年)。基因组挖掘能够高效地发现具有内在生物学相关性的功能部分,因为天然GEREs已经通过选择压力进化优化(Gregory,2009年)。然而,天然来源的GEREs的多样性和性能仍然有限。为了扩展调控元件的库,可以通过结合来自不同天然来源的功能模块来设计混合GEREs(de Boer等人,1983年)。与直接使用天然序列相比,这种方法提供了更高的设计灵活性,并有助于结合互补的调控特性(Fernandez-Rodriguez等人,2017年)。然而,其实际应用常常受到模块兼容性有限和功能行为可变性的限制(Reynolds和Chamberlin,1992年)。为了应对这些挑战,已经开发了基于现有GEREs作为模板的人工GERE生成策略,包括定向突变、随机突变和饱和突变(Sengupta等人,2020年;Sun等人,2021年)。这些技术可以产生具有不同表达强度的新元件库,其中一些元件的功能可能超过天然存在的GEREs的功能范围。然而,这些合成元件之间的结构相似性可能导致同源重组和随后的体内功能丧失。此外,突变、筛选和功能表征的过程仍然劳动密集且耗时,阻碍了它们的可扩展性和广泛应用。
为了提高设计效率,计算策略越来越多地被用来预测GEREs的功能特性并生成具有所需调控行为的新元件。传统的确定性热力学模型通过预定义的物理参数(如结合亲和力、基序组成和元件间间距)来计算基因表达,为这些努力做出了贡献(LaFleur等人,2022年;Yu等人,2021年)。尽管这些模型在机制上易于解释,但它们通常具有有限的普遍性和预测能力(Gertz等人,2009年;You等人,2019年)。相比之下,深度学习已成为预测和设计GEREs的强大工具。通过从大规模数据集中学习序列与表达水平之间的关联模式,这些模型无需明确理解序列-功能关系。它们在识别复杂、非线性特征方面表现出色,能够准确预测表达结果并生成具有所需特性的新序列(de Boer等人,2020年)。与传统计算模型相比,深度学习提供了更高的精度、可扩展性和自动化程度,使其成为GEREs设计中最有效的策略之一。
在这篇综述中,我们系统地比较了原核生物中基因表达调控元件的各种策略,包括启动子、终止子和5′ UTRs。我们总结了序列挖掘、突变和机器学习引导设计的进展(图1),并提供了它们适用性和局限性的比较分析。最后,我们讨论了当前的瓶颈,如上下文依赖性和数据不平衡,并概述了构建合成生物学中稳健且可预测的调控元件的未来方向。
章节片段
启动子设计策略
原核生物的启动子,例如在大肠杆菌中特征明确的σ70依赖性启动子,包括?35和?10基序、16–19 bp的间隔区以及位于+1位置的转录起始位点(TSS)(Browning和Busby,2004年)。其他调控区域,如UP元件、扩展的?10基序(?10 ext)、鉴别器(Disc)和初始转录区(ITR),进一步影响转录(图2A)(LaFleur等人,2022年)。每个模块都调节转录过程终止子设计策略
终止子通过防止转录贯穿和稳定转录本末端来调节上游和下游的基因表达(Deaner和Alper,2018年;Matsuyama,2019年;Wefelmeier等人,2022年)。目前的原核生物研究主要集中在描述性研究上,在模块标准化或预测建模方面进展有限(Ren等人,2017年)。因此,这篇综述重点关注终止子作为转录终止的核心设计单元。利用它们的保守序列结论与展望
基因组信息是GEREs序列、结构和强度特征的基础来源,为结构-功能分析和工程工作提供了支持(Hwang等人,2019年;Medema等人,2021年)。然而,它们的数量有限且强度范围狭窄,限制了它们在合成生物学中的实用性(Evfratov等人,2017年)。尽管突变和高通量筛选可以增加GEREs的多样性(Zhai等人,2022年),但这些方法往往效率低下
致谢
本工作得到了中国国家重点研发计划(2024YFA0918000)、江苏省重点研发项目(现代农业)(BE2022322)以及国家自然科学基金(22378170和22478156)和江苏省前沿技术研发计划(BF2025080)的支持。