编辑推荐:
在基因表达调控研究中,转录因子结合位点(TFBSs)虽关键,但周围序列影响难定量。清华研究团队围绕转录因子结合单元(TFBU)开展研究,开发 DeepTFBU 工具,发现设计 TFBSs 周围序列可调节增强子活性,成果助力基因调控理解与合成增强子设计。
在生命的微观世界里,基因表达调控宛如一场精密的交响乐演奏。转录因子(TF)与增强子的结合是这场演奏中的关键音符,精确调控着基因的表达,影响着生物的发育、分化等复杂过程。一直以来,转录因子结合位点(TFBSs)被视作 TF 结合和增强子活性的关键决定因素。科研人员发现,排列多个 TFBSs 能提升 DNA 序列作为增强子的功能,其方向和顺序也会显著影响增强子活性,基于此,操控 TFBSs 排列组合成为设计合成增强子的常用手段。
然而,随着研究的深入,问题逐渐浮出水面。相同 TF 结合基序的 DNA 序列在基因组中却展现出不同的 TF 结合行为,这表明 TFBSs 周围的上下文序列在决定 TF 结合效能和增强子活性方面起着至关重要的作用。比如,上下文序列中的短串联重复序列可直接与 TFs 相互作用,像 DNA 天线一样吸引它们;TFs 的内在无序区域(IDRs)能识别特定上下文序列,促进 TF 结合 。此外,局部 DNA 形状、弱结合位点的存在以及其他 TFBSs 等因素也会共同影响 TF 结合。但这些上下文序列中的复杂特征难以评估,目前迫切需要一种定量方法来刻画其对 TF 结合和增强子活性的影响,这对于理解基因调控机制以及设计具有特定功能的全长合成增强子至关重要。
为了解开这些谜团,清华大学的研究人员开展了一项意义重大的研究。他们提出了转录因子结合单元(TFBU)的概念,将核心 TFBS 及其周围上下文序列(TFBS-context)的效应整合起来,实现对长 DNA 序列结合靶向 TF 并驱动转录(增强子活性)的潜力进行定量评估 。基于此,研究团队开发了 DeepTFBU,这是一个全面的增强子设计工具包。
在研究过程中,研究人员运用了多种关键技术方法。首先,利用染色质免疫沉淀测序(ChIP-seq)数据训练深度学习模型,以提取 TFBS-context 中影响 TF 结合的关键模式,从而获得 TFBS-context 匹配分数 。其次,采用大规模平行报告基因检测(MPRA)实验,测量了超过 36,000 个由 DeepTFBU 设计的序列的增强子活性,验证增强子建模和设计策略。此外,通过构建细胞系(如肝癌细胞系 HepG2 和慢性髓性白血病细胞系 K562)进行实验,研究不同细胞类型中 TF 的结合偏好。
下面来看看具体的研究结果:
- DeepTFBU 概述:TFBU 由核心 TFBS 和 TFBS-context 组成,典型长度设为 168 碱基对。深度学习模型通过对 ChIP-seq 数据的学习,能够捕捉 TFBS-context 的局部和全局特征,定量评估其对 TF 结合和增强子活性的影响。基于此,结合遗传算法开发了一系列增强子设计策略,并整合到 DeepTFBU 工具包中12。
- 操纵 TFBU 序列可显著调节增强子活性:通过 MPRA 实验,研究人员发现核心 TFBS 对增强子活性的影响在不同上下文序列中基本一致 。同时,设计 TFBS-context 能显著调节增强子活性,且这种功能无需其他明显 TFBSs 的存在即可实现。研究还分析了影响 TFBU 增强子活性的关键 DNA 特征,包括其他 TF 的 TFBSs、DNA 形状模式、核心 TF 的弱结合位点数量以及 DNA 二级结构特征等345。
- TFBS-context 可产生细胞类型特异性增强子活性:研究表明,同一 TFBU 在不同细胞类型中具有不同效应。研究人员通过训练不同细胞系(HepG2 和 K562)的 TFBS-context 模型,利用遗传算法设计出具有细胞类型特异性的 TFBS-contexts,实验验证了这些 TFBS-contexts 能产生显著的细胞类型特异性增强子活性67。
- TFBU 的联合优化实现含多个 TFBSs 增强子的从头设计:研究人员探索了多个 TFBU 在 DNA 序列中的联合优化策略。实验结果显示,通过同时设计多个核心 TFBS 的 TFBS-context,可提升增强子活性,且在核心 TFBS 数量和设计空间之间找到恰当平衡时,能获得更高的增强子活性89。
- 基于 TFBU 的建模为增强子解耦和优化提供灵活框架:研究人员将增强子解耦为 TFBU 基本单元,开发了一个灵活的框架。实验表明,该框架能有效解耦和优化现有强增强子,如通过对巨细胞病毒(CMV)增强子的优化,验证了其提升增强子活性的能力1011。
在研究结论与讨论部分,研究人员提出的 TFBU 概念为增强子的建模和设计提供了全新的视角,成功量化了 TFBS-context 的 TF 特异性和细胞类型特异性功能 。研究结果表明,设计 TFBS-context 可调节大多数 TF 的增强子活性,基于 TFBU 的方法能满足多种增强子设计需求。同时,研究还发现 TFBS-context 模型有潜力捕捉不同 TF 之间的协同功能。此外,虽然本研究中 TFBU 长度设为 168bp,但最佳长度可能因 TF 而异,仍需进一步研究确定。
这项研究成果发表在《Nature Communications》上,为基因调控机制的理解提供了新的理论依据,也为合成生物学、基因治疗等领域中理性设计增强子提供了有力的工具和策略,具有重要的科学意义和应用价值。它就像一把钥匙,为我们打开了更深入理解基因表达调控奥秘的大门,有望在未来的生命科学研究和医学应用中发挥巨大的作用。