编辑推荐:
本文综述真核生物基因调控机制,聚焦染色质动态研究技术进展。从染色质免疫沉淀(ChIP)及其衍生技术,到原位分析、转座酶和甲基化相关方法,探讨其在解析转录因子(TF)与染色质互作中的应用及对基因表达调控的揭示。
引言
真核生物中,DNA 被组蛋白包装成染色质,通常会遮蔽 DNA 序列,限制因子结合,但调控因子也进化出利用染色质包装的机制。从证实真核染色质由重复核小体组成,到阐明真核基因结构,再到鉴定细胞中 RNA 聚合酶 II(RNAPII)的位置,人们逐渐认识到染色质不仅有特定蛋白因子结合,组蛋白本身也携带特定修饰,促进因子的位点特异性结合。因此,启动子和增强子被视为由通过 DNA 和组蛋白接触结合的特定蛋白质组成的 “岛屿”,引导和调节 RNAPII 进行基因转录。
人类基因组计划的主要目标之一是注释基因调控元件在基因组中的位置,人们为此付出大量努力来绘制许多转录因子和组蛋白修饰的图谱。然而,尽管 DNA 序列是调控元件位置和因子结合的基础,但当前的序列分析方法存在局限性:对已知共有序列基序的因子结合预测过多,而对未知因子的结合无法预测。此外,调控元件状态因细胞类型而异,因此对体内调控染色质结构的理解依赖于技术的不断改进,本文将对这些技术进行综述。
染色质免疫沉淀
几十年来,染色质分析的主要方法基于抗体与交联剪切染色质中蛋白质的结合,然后进行亲和沉淀,称为染色质免疫沉淀(ChIP),该方法首次应用于果蝇细胞中 RNAPII 的定位。ChIP 的标准流程是用甲醛固定将蛋白质与染色质交联,然后通过超声处理将基因组 DNA 随机剪切为约 300 bp 的片段;用针对特定染色质蛋白的抗体进行免疫沉淀,回收该特定蛋白结合的 DNA 片段。虽然单个片段相对较大,但目标蛋白的结合位点通常通过重叠片段的峰值来推断。
全基因组 ChIP 实验最初在微阵列(ChIP-chip)上进行,之后采用 Solexa/Illumina 测序(ChIP-seq)。ChIP-seq 技术的多项进展旨在提高分辨率和灵敏度,包括 ChIP-exo,它利用 λ 核酸外切酶的 5’→3’ DNA 消化活性修剪未结合的 DNA,以获得碱基对分辨率。ChIP-exo 已用于描绘旁系同源叉头转录因子(TFs)之间基序结合的差异,显示出靶标特异性和开拓活性所需的核小体结合的广泛差异。ChIP-nexus 是 ChIP-exo 的改进版本,提高了灵敏度,它与染色质可及性测序(ATAC-seq)结合使用,有助于区分驱动果蝇早期发育的 TFs 的开拓模式。类似地,在 ChIP 中使用微球菌核酸酶(MNase)的内切 - 外切酶活性代替超声处理进行片段化,提高了分辨率。MNase 切割 DNA 进行片段化无需交联,避免了超声处理时蛋白质从 DNA 上脱落,但可能导致表位掩蔽,因此 MNase ChIP-seq 兼具高分辨率和高灵敏度。DNA 断裂因子(DFF)-ChIP 使用人类 DFF,其专门切割双链 DNA,因此可以揭示相邻因子之间的接触。
原位染色质分析
另一种通用染色质分析策略是保持细胞或细胞核完整,仅释放被表位靶向的 DNA。染色质内源性切割(ChEC)是一种原位方法,使用与 MNase 的融合蛋白,通过透化细胞摄取钙离子来激活 MNase。ChEC 已适配 Illumina 测序读数(ChEC-seq),并用于酵母研究中的高灵敏度、高分辨率染色质分析。当应用于几乎全套酵母 TFs 时,ChEC-seq 揭示了 TF 结合位点与其调控的基因之间惊人的缺乏对应关系,大多数 TFs 根据靶向基因负责激活或沉默。
对于复杂基因组的原位染色质分析,使用抗体而非融合蛋白,因此染色质免疫切割(ChIC)直接与 ChIP 竞争。靶向切割和释放(CUT&RUN)的高灵敏度和分辨率使其广泛应用于 TFs 分析,其中受保护片段的大小区分小足迹 TFs 和大足迹核小体。事实上,在酵母和小鼠胚胎干细胞中,通过 CUT&RUN 后进行核小体表位的 ChIP,利用足迹大小来鉴定部分解开的核小体,从而解析了 Switch/Sucrose 非发酵型(Swi/Snf)家族染色质重塑剂在染色质开放中的动态。
基于转座酶的方法
虽然 CUT&RUN 在 TFs 的染色质分析中越来越受欢迎,但对 ChIP-seq 主导地位最成功的挑战来自 Tn5 转座酶基方法,尤其是用于开放染色质作图的 ATAC-seq 和用于抗体导向染色质作图的 CUT&Tag。这两种方法都使用修饰的大肠杆菌 Tn5 转座酶将测序接头直接插入结合位点,无需连接接头进行聚合酶链反应和测序,提高了相对于 ChIP-seq 的灵敏度。尽管 MNase-seq 和 CUT&RUN 的碱基对分辨率使其优于 ATAC-seq 和 CUT&Tag,更适合精确的核小体和 TF 作图,但它们不太适合单细胞分析。因此,ATAC-seq 和 CUT&Tag 都已适配用于 RNA-seq 引入的各种单细胞平台。尽管转录的扩增导致 RNA-seq 的产量更高,但 ATAC-seq 和 CUT&Tag 通过检测到的调控元件数量远多于 RNA-seq 中的基因来弥补其产量较低的不足。10X Genomics 微滴平台广泛用于同时进行单细胞 ATAC-seq 或 CUT&Tag 和 RNA-seq,提供两种模式的优势。多因子单细胞 CUT&Tag 分析使用组合索引进行低成本、高通量的大量样本分析,其中可以包括 RNA 聚合酶 II 抗体来标记活跃转录。单细胞 CUT&Tag 的多功能性还扩展到细胞表面蛋白识别、单链纳米抗体表位识别和纳米孔长读长测序。
ATAC-seq 和 CUT&Tag 还通过微流控技术适配于空间染色质分析,尽管分辨率还不足以可靠地解析单细胞。最近在显微镜载玻片上紧密排列条形码阵列的进展有可能提供具有单细胞分辨率的经济实惠的空间基因组分析。相比之下,基于成像的染色质分析提供单细胞分辨率,但基因组分辨率太低,无法提供可与单细胞表观基因组学策略竞争的有用作图数据。然而,扩展显微镜在染色质分析中的应用已将组织成像的空间分辨率提高到这样的程度,即规律成簇间隔短回文重复序列(CRISPR)介导的细胞特异性条形码插入与原位 DNA 测序相结合,可以在小组织切片内提供表观基因组标志的逐个细胞二维图。
基于甲基化的方法
DNA 甲基转移酶长期以来一直用于染色质分析,最初是使用 GATC 特异性大肠杆菌 Dam 甲基转移酶作为染色质可及性的探针。DamID 是一种体内方法,使用 Dam 与感兴趣的染色质蛋白的融合蛋白在活细胞和生物体中标记 DNA。DamID 的基本思想是融合蛋白结合的基因组位置通过周围 DNA 的腺嘌呤甲基化来标记。这种甲基化标记导致甲基化敏感限制酶对基因组 DNA 的差异切割,然后通过微阵列或测序进行测量。虽然最初需要为每个感兴趣的蛋白质构建和体内表达融合蛋白,但最近的方案使用针对染色质蛋白的抗体在原位 tether DNA 甲基转移酶,非常类似于 ChIC 方法。这增加了基于甲基化的分析的多功能性,同时将其扩展到组蛋白和 TF 修饰,这是融合蛋白无法分析的。
基于甲基化的染色质分析的第二种策略利用染色质蛋白和复合物对 DNA 的遮蔽来 “足迹” 它们的占据。在 NOMe-seq 中,细胞核与 GpC DNA 甲基转移酶 M.CviPI 孵育,该酶甲基化任何暴露的 DNA。对这种处理过的 DNA 进行亚硫酸氢盐测序,将核小体定位为 147 bp 的未甲基化 DNA 片段,并区分活跃和沉默染色质区域的核小体排列。这个概念被扩展为单分子足迹(SMF),使用多种甲基转移酶对任何染色质结合蛋白(包括 RNA 聚合酶 II 和转录因子)的足迹进行分析,密集地标记因子遮蔽的 DNA。这些方法弥合了体外染色质表征和体内分析之间的差距,因为标记提供了体内染色质替代构型的绝对定量。虽然许多分析方法仅测量染色质蛋白的存在或可及性,但标记方法枚举了具有结合到其同源位点的因子、遮蔽该位点的核小体或没有因子或核小体结合的分子数量。这些研究直接表明,结合位点暴露但未结合因子的 “激活” 状态占所有分子的很大比例,突显了激活调控元件时核小体和转录因子之间竞争的重要性。最近的研究使用整合基因组构建体来测量多个转录因子如何相互作用。例如,在体内可控环境中重现体外研究发现,相邻结合因子之间的协同作用主要通过置换核小体起作用,并且因子结合被染色质重塑剂增强。尽管这是一个人工环境,但它暗示天然调控元件的结构利用了调节核小体以促进激活的相同原理。
最近,基于甲基化的方法已与长读长测序结合。Fiber-seq 使用 Hia5 腺嘌呤甲基转移酶在细胞核中高效标记染色质,详细描述单个染色质分子的一级结构和占据情况,跨越完整的调控元件,从而揭示染色质阵列中的核小体如何在因子结合位点周围协同改变。类似的方法将核苷酸脉冲标记与甲基化标记结合,以询问 DNA 复制期间叉通过后立即在延伸片段上的染色质结构。在这些方法中,任何足迹蛋白的身份从其足迹大小或基础序列基序推断,而 DiMeLo-seq 将 DamID 的原理与 SMF 标记结合。在长读长格式中,只有被靶向蛋白结合的染色质纤维具有甲基化标记,直接将这些排列与组蛋白修饰状态联系起来。随着长读长测序成本相对于 Illumina 测序的降低,我们预计 SMF 和其他染色质分析方法将变得越来越有吸引力。
展望
基因组计划在枚举调控元件方面的进展揭示了发育基因和管家基因的增强子和启动子的多样性。高通量筛选方法如自转录活性调控区域测序(STARR-seq)已鉴定出数千个具有广泛活性和发育特异性的元件,这些元件仅部分由可检测的 DNA 序列基序解释。许多这些调控差异可能编码在影响染色质结构的并列序列元件中。高分辨率作图方法(如 ChIP-exo 和 CUT&RUN)极大地提高了我们对特定因子在调控元件中与 DNA 精确接触位置的了解,而 SMF 和 Fiber-seq 等方法的绝对定量捕捉了延伸区域内因子结合和核小体周围的足迹。结合观察染色质事件时间尺度的实时成像研究,这些方法正朝着理解基因调控机制如何被调节以在体内产生基因调控多样性的方向发展。