《Frontiers in Plant Science》:Synthetic promoter design in plants: integration of computational and experimental approaches
编辑推荐:
本文全面评述了植物合成启动子的设计原理与应用,系统阐述了启动子架构(核心/近端/远端区域)与“语法”规则(如基序距离、方向、螺旋相位),归纳了通过DNA亲和纯化测序(DAP-seq)等技术识别顺式调控元件(CREs)及利用高通量报告基因检测进行验证的策略。文章强调通过设计-构建-测试-学习(DBTL)循环,整合计算预测模型(如卷积神经网络CNNs)与实验验证,以开发可预测的合成启动子,应用于功能基因组学、生物传感器、基于逻辑门的遗传电路和作物工程,实现精细的转录调控。
在植物中,精确控制基因表达是现代植物生物技术的核心目标。转录调控主要由位于基因启动子区的短DNA基序——顺式调控元件(CREs)——与结合它们的转录因子(TFs)之间的相互作用介导。天然的启动子虽被广泛应用,但其模块化、可调性和在不同遗传背景及物种间的可预测性受到进化压力的限制。合成启动子,即由定义明确的CREs组成的人工DNA序列,为实现精细的转录控制提供了强大的替代方案。
植物的一般转录调控
植物转录调控涉及以TF-DNA相互作用为基础的一系列协调事件。TFs是模块化蛋白质,通常包含一个或多个识别并结合特定CREs的DNA结合域(DBDs),以及招募或与转录机器、共因子和染色质量塑因子相互作用的调控域。启动子是这类调控的中心,它们包含基因特异性TFs的结合位点,这些TFs可以激活或抑制转录,同时也包含基础转录机器启动特定基因转录的结合位点。转录起始依赖于由RNA聚合酶II(Pol II)和一系列通用转录因子(GTFs)组成的预起始复合物(PIC)的招募和形成。此外,染色质状态和可及性、核小体定位、组蛋白修饰和DNA甲基化进一步调节了TFs和通用转录机器能否接近启动子。
转录因子分类
理解TF分类为工程化合成启动子提供了必要的背景,因为TF家族身份与DNA结合特异性相关,从而为启动子构建中CREs的理性选择提供信息。植物基因组中有相当一部分编码TFs。通常,TFs根据其结构域(特别是它们的DBDs)被分类到不同的家族。近年来,研究人员通过研究56种已识别植物TF类型的三维结构,开发了一个植物TF的结构分类框架,称为Plant-TFClass,它提供了一种简化的分类方法。标准化的TF分类将有助于更轻松地识别TF家族内TF-CRE相互作用的模式。
TF-CRE相互作用
TF家族分类是系统分析TF功能的第一步。另一个必不可少的信息层是识别被一个TF或TF家族结合的共有序列。启动子中仅存在一个基序并不能保证基因的激活,因为转录活性在很大程度上取决于该基序的染色质可及性和TF结合亲和力。虽然存在多种方法来确定TF与DNA序列的结合亲和力,但DNA亲和纯化测序(DAP-seq)为系统分配TFs及其相应的TFBS做出了重大贡献。为了引发基因转录,三个条件需要成立:1) TFBS存在于目标基因的启动子内;2) TFBS是可接近的;3)其相应的TF必须存在于感兴趣的细胞或组织中。TF活性不仅取决于其在给定细胞中的可用性,还取决于其在基因组背景中对其结合位点的物理可及性。表观遗传修饰,如DNA甲基化、组蛋白修饰、染色质可及性和核小体定位,都会影响TFs在基因组背景下与其TFBS相互作用的能力。TFs与启动子内TFBS的结合本质上是一个动态过程,TFs不断地结合和解离DNA。TF-TFBS相互作用的另一层复杂性在于特定TFBSs通过其相关TFs或这些TFs招募的共因子之间的相互作用而产生的协同性。启动子内的多个基序可以通过其TFs的协同结合来增强表达,或通过TF竞争性结合或招募抑制因子来限制活性,从而发挥协同或拮抗作用。
启动子架构与语法
鉴于TF-TFBS相互作用的背景依赖性,阐明控制启动子架构和语法的规则对于理性设计具有可预测转录输出的合成启动子至关重要。启动子组件通常分为核心、近端和远端区域,每个区域都贡献于转录控制。核心启动子(也称为最小启动子)定义了基础转录,而近端-远端区域的基序则赋予调控响应性。此外,在转录起始位点(TSS)上游或下游数千碱基处发现的、功能类似于启动子区域基序的长程调控元件可以增强或抑制表达,增加了转录控制的额外层次。理解控制启动子功能的规则对于设计能够实现精确转录控制的合成启动子至关重要。植物启动子活性不仅由单个CREs的存在决定,更源于这些基序在启动子序列内的排列、间距和组合相互作用,这一概念通常被描述为启动子“语法”。这一概念涵盖了基序的空间组织和数量,以及它们相对于TSS和彼此的相对距离,这些决定了结合它们的TFs之间的相互作用。基序数量的增加、基序间距以及基序方向都可能影响启动子强度,而更微妙的变化,如螺旋相位,也可能对基因表达水平产生显著影响。
植物中的合成启动子设计
合成启动子被定义为任何人工设计的启动子,它组装自然界中不存在的现有CREs组合,甚至创建新的CREs。这类启动子传统上被用来以时空特异性方式驱动表达,从而为感兴趣基因创建新的表达谱。合成启动子也被用于进一步理解一般启动子结构和基序功能,因为许多早期的合成启动子是通过组合天然启动子的片段构建而成的,从而产生了一种融合了响应各种信号的基序的新型启动子。合成启动子的设计和组装始于识别能够用于实现所需启动子行为的CREs,无论是组成型、诱导型还是组织特异性表达。合成启动子的范围可以从包含单个CREs到包含多个同型或异型基序的串联阵列。更复杂的合成启动子设计将来自不同调控途径的基序组合到一个启动子序列中,以实现对多个独立信号的转录响应。合成启动子可以通过多种方式生成,具体取决于实验设置和资源可用性。尽管近年来预测建模取得了进展,但实验验证对于评估给定合成启动子设计的有效性仍然至关重要。这些新构建的启动子通常通过瞬时报告基因检测或稳定整合到拟南芥等模式生物的基因组中进行评估。高通量技术,如大规模平行报告基因检测或STARR-seq方法,已经出现,用于量化合成启动子库在各种条件和组织中的活性。
合成启动子的应用
合成启动子可用作研究CREs表达域的工具,为研究界创建生物传感器,并通过对基因表达的组合控制来实现复杂性状工程。其应用涵盖功能基因组学、生物传感器、基于逻辑门的遗传电路及作物工程。
在功能基因组学中,合成启动子最早和最流行的应用之一是驱动目标基因或报告基因的组成型、组织特异性或条件特异性表达。由于天然启动子可能以意想不到的方式行为,由模块化CREs组成并位于最小启动子上游的合成序列已被证明在产生更精确的表达模式方面具有优势。一些研究通过突变、缺失或多种天然启动子序列或元件的嵌合融合来修饰天然启动子以创建合成启动子,并取得了成功。
在生物传感器方面,合理的诱导型合成启动子设计的出现使研究人员能够通过使用合成启动子驱动的报告基因(通常称为转录生物传感器)来监测特定的激素、胁迫或代谢物,其强度与信号强度成正比。生长素是就空间分布和发育模式而言研究最深入的植物激素,而合成启动子对这一进展至关重要。经典的DR5启动子由多聚化的生长素响应元件(AuxRE)基序构成,已被用于可视化根、胚胎和芽中的生长素动态数十年。转向TGTCGG基序并优化重复基序方向产生了DR5v2启动子,从而提高了灵敏度和细胞分辨率。其他植物激素相关的基序也被用来构建激素生物传感器。包含六个串联ABRE基序的6xABRE合成启动子是广泛使用的ABA响应启动子,揭示了ABA信号的时空动态。TCS和TCSn是经典的细胞分裂素响应合成启动子,由串联的拟南芥B型响应调节因子(ARR)结合位点构建而成。
在逻辑门遗传电路方面,近年来,合成启动子已开始用于植物中遗传逻辑门的设计。遗传逻辑门借鉴数学和布尔逻辑的概念,基于转录因子、信号分子或环境线索等生物输入组合来实现基因表达的条件控制,从而实现复杂且可编程的转录响应。逻辑门接受一个或多个二进制输入,并根据逻辑门的类型产生一个二进制输出。在此框架下,合成启动子允许整合多个响应不同上游调节因子的CREs。由此产生的启动子输出(无论是转录激活还是抑制)功能上类似于AND、OR和NOT等布尔逻辑运算。
在作物工程方面,合成启动子已成为改造作物和增强农艺性状的强大工具。过去五年中,几个值得注意的例子展示了启动子设计如何实现对复杂性状的精确调控,从用于产量提高的代谢重编程到提供针对病虫害的靶向抗性的诱导型系统。果实特异性表达是作物中启动子工程最长期的应用之一。成熟是作物性状工程的理想目标,因为它对作物质量影响重大。番茄E8和E4启动子是经典的例子,两者都在乙烯响应下的成熟过程中被强烈诱导。研究人员利用这些启动子创建了混合的合成启动子组合,以驱动转基因在成熟阶段的表达。合成启动子的使用还实现了诱导型代谢产物的生产,其中植物可以以受控方式产生感兴趣的化合物。病原体抗性性状为作物工程中的合成启动子提供了另一个应用场景。
在启动子设计中整合计算方法
随着合成启动子设计的发展,计算方法已日益成为推动进步的核心,范围从帮助发现构成和定义启动子功能的CREs,到生成新的启动子序列并预测其体内行为。虽然存在少数植物特异性计算模型,但目前为启动子工程应用创建的最新模型仍基于原核生物、哺乳动物或酵母物种的数据构建和训练。
在CRE提取和预测方面,计算发现CREs有着悠久的历史,并受益于利用高通量植物TF-TFBS结合测定获得信息的基序发现算法。自诞生以来,基序发现工具已成为CRE提取不可或缺的一部分。早期的CREs计算机预测由于缺乏跨植物基因组的已知基序而受到限制。随着深度学习(DL)的发展,新的计算框架已开始利用DL直接从序列数据中提取调控信息。iCREPCP是一个基于DL的平台,能够识别植物核心启动子内的CREs,它使用卷积神经网络(CNNs)来识别最能指示启动子强度的单个碱基或碱基对窗口。
在基于序列的启动子生成和预测建模方面,与CRE聚焦的方法不同,基于序列的方法旨在建立整个启动子序列与总表达输出之间的预测关系。例如,研究人员开发了一种算法,在给定特定DNA启动子序列的情况下预测酵母中的基因活性。近年来,研究已开始通过开发植物特异性DL工具来弥补这一差距。例如,开发了一个CNN来准确预测拟南芥、番茄、高粱和玉米中基因侧翼区域的基因表达谱。另一个研究开发了两个DL模型来预测玉米、水稻、番茄或拟南芥中长(120kb)或短(3kb)基因组序列的表达,以指导植物中启动子的基因编辑。另一个特别适用于植物的模型旨在通过分析相关的DNA序列来利用DL估计基因转录本的相对丰度。
为了增强具有可预测表达的启动子的生成并完善合成启动子工程方法,我们可以将注意力转向专注于启动子分类和鉴别的计算方法。研究人员开发了ML和DL模型,将给定序列分类为启动子或非启动子类别,如DeePromoter和iProm-Zea。结合启动子生成和鉴别方法,可以支持迭代模型优化的框架的出现。最近的一项研究报道了一种名为PromoDGDE的新型启动子设计方法,旨在解决有意设计具有不同转录强度的启动子的需求。
总之,合成启动子设计代表了植物生物技术和合成生物学的一个快速发展的前沿领域。通过将计算工具与实验验证相结合,并遵循DBTL循环,研究人员可以克服天然启动子的局限性,创建定制化的基因表达系统。这些进展不仅加深了我们对植物转录调控基本规则的理解,而且为农业、生物技术和基础研究中的实际应用开辟了新途径。未来的工作应侧重于扩大植物特异性训练数据集,改进跨物种预测模型,并将表观遗传和三维基因组特征整合到设计管道中,以实现在复杂植物系统中真正可预测和稳健的合成启动子工程。