综述:表观基因组学方法学的最新进展

《Epigenomics》:Recent advances in methodologies of epigenomics

【字体: 时间:2025年11月04日 来源:Epigenomics 2.6

编辑推荐:

  本综述系统梳理了单细胞测序、长读长测序、活细胞成像及空间多组学整合等前沿技术,如何将表观基因组学研究从群体平均水平推向单细胞、多组学和细胞内空间分辨率的新高度,为染色质生物学研究提供了前所未有的深度和广度。

  

摘要

过去十年间,方法学的快速突破已将表观基因组学从群体平均水平检测,转变为单细胞、多组学和细胞内空间层面的研究。本综述考察了当前以空前广度和分辨率绘制表观基因组图的相互关联的技术支柱。

1. 引言

表观基因组学研究不改变DNA序列本身、但调控基因表达的基因组化学修饰,例如DNA甲基化、组蛋白(翻译后)修饰以及相关的三维高阶染色质结构。早期的表观基因组研究依赖于群体细胞测量,例如用于DNA甲基化的亚硫酸氢盐测序和用于组蛋白修饰的染色质免疫沉淀测序(ChIP-seq)。这些群体方法揭示了全局表观遗传机制,但掩盖了细胞异质性和局部表观遗传调控。为了应对这些局限性,过去十年发展出的众多新方法使研究人员能够在单细胞分辨率下 interrogate 表观遗传状态,无需苛刻的化学处理即可在长读长上检测修饰,并在同一细胞内整合多个数据层(转录组、可及性和修饰状态)。此外,基于成像的方法的发展,如超分辨率显微镜和高通量荧光原位杂交(FISH),使得能够直接可视化高阶染色质结构和表观遗传标记在其细胞内空间背景下的分布。

2. 基于测序的方法

基于测序的方法的演变由三个核心科学方面驱动:解析细胞间变异性、实现长距离等位基因定相以及同时捕获多个分子层。

2.1. 单细胞表观基因组学

2.1.1. 单细胞染色质可及性
转座酶可及染色质测序(ATAC-seq)是绘制可能包含活性增强子、启动子和其他调控元件的开放染色质区域的主要技术。单细胞ATAC-seq(scATAC-seq)成为一种克服群体平均局限性的高分辨率方法。主要策略包括使用微流体装置将单个细胞密封在油滴中作为独立反应,或通过组合索引(也称为重复的“split-pool”策略)用独特的细胞条形码标记染色质。单细胞ATAC-seq能够同时注释异质性哺乳动物组织中的稀有细胞群,并揭示发育和疾病过程中调控转录因子的细胞特异性开放染色质特征。
2.1.2. 单细胞组蛋白修饰和转录因子结合
ChIP-seq revolutionized 组蛋白修饰和转录因子作图,但其对数百万细胞的需求使其不适用于稀有细胞群。新方法如CUT&RUN和CUT&Tag直接将微球菌核酸酶(MNase)或Tn5转posase分别栓系到抗体结合区域,选择性切割并仅释放抗体结合位点的DNA,显著提高了效率。单细胞CUT&Tag提供了对生物过程中表观遗传动力学的无偏倚和无监督视图,例如在体内脑发育、体外内胚层分化和肿瘤进展中识别细胞异质性。
2.1.3. 单细胞DNA甲基化
全基因组亚硫酸氢盐测序(WGBS)是绘制胞嘧啶甲基化(真核生物中主要形式5-甲基胞嘧啶(5mC)及其氧化形式5-羟甲基胞嘧啶(5hmC))的金标准。但其向单细胞的适应具有挑战性,因为亚硫酸氢钠处理导致的未甲基化胞嘧啶向尿嘧啶的转化会损伤DNA并导致显著的样本损失。尽管存在挑战,单细胞亚硫酸氢盐测序(scBS-seq)由于优化方案和改进的文库制备效率而已变得可行。为了克服亚硫酸氢盐处理固有的DNA损伤,酶促转化(EM-seq)方法使用TET和APOBEC的组合将未甲基化胞嘧啶转化为尿嘧啶而不损伤DNA模板。基于EM-seq的单细胞技术Cabernet通过整合标签化来最小化样本损失,并可通过省略TET活性的平行反应(Cabernet-H)来区分5mC和5hmC。
2.1.4. 高阶染色质结构的单细胞分析
染色体构象捕获(3C)及其全基因组衍生物Hi-C,是绘制三维相互作用的基石。单细胞Hi-C(scHi-C)方法被开发用于在数千个单个细胞中绘制三维接触图,揭示了拓扑关联结构域(TAD)结构中的细胞间变异性。单细胞Micro-C(scMicro-C)使用微球菌核酸酶代替限制性内切酶,将数据分辨率提高到5 kb,识别了人类淋巴母细胞系中的多增强子枢纽。单细胞split-pool recognition of interactions by tag extension(scSPRITE)使用组合索引来标记空间上邻近的片段,与scHi-C相比,能以更少的读长检测到更多的成对接触和染色体间接触。

2.2. 第三代长读长表观基因组学

第三代测序仪(PacBio, Oxford Nanopore)通过提供两个关键优势解决了短读长方法的挑战。
2.2.1. 等位基因辨别和长距离共现
长读长测序可以读取长达数十或数百千碱基的完整分子,显著提高了通过单核苷酸多态性(SNP)和插入/缺失(indel)区分等位基因的机会,并允许在单分子或单细胞水平上检测同一等位基因上的表观遗传信息。定相的表观遗传数据集可以揭示差异DNA甲基化区域和印记基因座。长读长染色质可及性测定(scNanoATAC-seq2)不仅能解析等位基因特异性可及性信息,还证明了识别单个细胞同一等位基因上可及位点共现的能力。
2.2.2. 碱基修饰的天然检测
第三代测序仪可以直接测量核苷酸的修饰。PacBio测序仪使用单分子实时(SMRT)技术监测互补碱基的掺入速率,修饰碱基的聚合酶动力学不同于未修饰碱基,产生特征性的延迟掺入。Oxford Nanopore Technologies的纳米孔测序仪记录当单链DNA通过称为纳米孔的微小蛋白质通道时的电流模式,修饰碱基产生与其未修饰对应物不同的特征性电流模式。这些方法使用在合成DNA标准上训练的机器学习模型将时域荧光或电信号模式转换为修饰碱基。

2.3. 表观基因组学中的多组学

2.3.1. 染色质、DNA甲基化和转录组的单细胞分析
多组学方法旨在将表观基因组与同一细胞内的转录组联系起来。同时高通量ATAC和RNA表达(SHARE-seq)合并了单细胞核中的染色质可及性和转录组,能够剖析小鼠皮肤分化过程中转录激活之前的可及染色质。单细胞甲基化和转录组测序(scM&T-seq)使用链霉亲和素偶联的oligo-dT引物分离RNA,用于DNA甲基化和转录组的平行分析。单细胞核小体、甲基化和转录组测序(scNMT-seq)在scM&T-seq基础上增加了通过体外GpC甲基转移酶处理标记可及染色质的步骤,从而捕获三种模态。
2.3.2. 组蛋白和DNA修饰的多重分析
方法如scMulti-CUT&Tag和scMulTI-Tag在连续轮次中使用不同的抗体,每个抗体与独特的条形码适配器偶联,以在同一细胞中分析多种蛋白质(组蛋白修饰)。六字母测序(six-letter-seq)是一种新技术,利用DNMT5将5mC(而非糖基化的5hmC)复制到合成互补链上,从而在测序后区分它们。
2.3.3. 与高阶染色质结构的多组学
将染色质结构与其他表观遗传层整合,为基因调控提供了完整的细胞内空间信息。同时分析染色质接触和DNA甲基化的方法,如scMethyl-HiC,揭示了小鼠胚胎干细胞中空间上接近的远端区域的共调控。将长读长测序与构象捕获相结合,如Pore-C,能够在同一长DNA分子上同时检测高阶染色质接触和天然DNA修饰。

2.4. 基于测序方法的生物信息学

现代测序方法产生的大量复杂数据集需要专门的生物信息学方法。关键挑战包括处理单细胞检测中的数据稀疏性、准确比对长读长(易出错)以及整合多组学实验中的不同数据类型。
对于单细胞表观基因组学,数据稀疏性是一个主要挑战。生物信息学管道需要用于细胞聚类、轨迹推断、模体富集和缺失数据插补。统计聚类工具如ArchR整合单细胞ATAC-seq数据进行细胞聚类、轨迹推断和模体富集,而矩阵分解工具如scOpen和scCASE可以利用从大量稀疏单细胞数据中学到的一般规则来预测每个单细胞中的缺失数据。深度学习方法如Scover、DeepCpG和Higashi被开发用于从稀疏的单细胞数据中学习并推断细胞类型特异性特征。
对于长读长表观基因组学,关键的第一步是将长且通常有噪声的读长与参考基因组比对。供应商提供集成的分析平台(如Oxford Nanopore的EPI2ME),提供用户友好的、基于云的流程,将长读长特异性比对、变异调用、甲基化分析和高阶染色质结构捆绑到自动化工作流中。
多组学数据分析旨在找到一个联合的低维表示,以捕捉不同分子层之间的主要变异来源。单细胞分析工具Seurat v5的最新版本将其众所周知的转录组学能力扩展到表观基因组学和蛋白质组学等模态,以发现协调的生物学过程。

3. 基于成像的方法

基于成像的方法通过保存空间背景,对于研究表观遗传机制至关重要。
3.1. 使用活细胞的表观基因组分析
3.1.1. 通过可视化整个细胞核中的表观基因组进行分析
免疫荧光是一种使用特异性识别组蛋白修饰或DNA甲基化的抗体来可视化表观基因组的方法。最近的努力已将这种荧光标记技术应用于活细胞,从而能够以高时间分辨率分析表观基因组动力学对基因组功能的影响。例如,通过使用FabLEM同时可视化特定组蛋白修饰的荧光探针和特异性识别H3K27ac及RNA聚合酶II的荧光标记抗体片段,可以直接观察这些表观遗传状态之间的关系。
3.1.2. 活细胞表观基因组分析技术
Mintbody(Modification-specific intracellular antibody)技术涉及构建编码由识别特定组蛋白修饰的抗体互补决定区(CDR)组成的探针的质粒,该探针与荧光蛋白(如GFP)融合。将这些质粒转染到细胞中能够可视化活细胞内目标表观遗传修饰的分布和动力学。将Mintbody与可视化转录活性的方法(如使用MS2-MCP和TetO/TetR系统)相结合,已证明转录调控因子和特定翻译后修饰的动力学与转录动力学密切相关。
利用天然存在的特异性识别表观遗传修饰的蛋白质结构域(“阅读器结构域”)的探针技术也取得了进展。例如,将甲基CpG结合结构域(MBD)或结合乙酰化赖氨酸残基的溴结构域等阅读器结构域与荧光蛋白融合的探针,可以观察活细胞中特定表观遗传修饰的分布和富集。
3.2. 使用固定样本进行空间细胞内表观基因组分析
3.2.1. 使用固定细胞进行空间表观基因组分析的挑战与进展
荧光原位杂交(FISH)技术的进步使得能够在固定细胞中同时成像多种分子种类,基于成像的空间多组学成为一种突出的方法。
3.2.2. 使用多重染色质追踪技术进行集成空间表观基因组学
DNA seqFISH+是一种来自Long Cai小组的顺序DNA FISH方法,具有用于单细胞中表观基因组和高阶染色质结构集成分析的卓越能力。其突出特点是能够交互式获取多层信息。除了使用其带有条形码策略的顺序DNA FISH以高空间分辨率绘制大量基因组位点外,DNA seqFISH+可以同时揭示重要的表观基因组信息,例如特定表观遗传标记的分布和RNA表达模式。这使其成为研究表观遗传景观如何相对于基因组空间构象和单细胞水平的转录活性建立和维持的特殊技术。
DNA seqFISH+首先使用多步条形码DNA FISH可视化小鼠胚胎干细胞中约3660个基因组区域。此外,通过将其与检测70种mRNA的RNA seqFISH和同一细胞中17种染色质标记和核结构蛋白的免疫荧光相结合,实现了高阶染色质结构、转录组和表观基因组信息的集成作图。随后的研究将DNA seqFISH+应用于小鼠脑组织切片,在单细胞水平比较了不同细胞类型(如神经元和胶质细胞)的高阶染色质结构。“双层DNA seqFISH+”策略的引入显著提高了技术的可扩展性,使得能够可视化每个细胞约10万个基因组位点(在所有染色体上以25 kb间隔)。
3.2.3. 使用其他多重染色质追踪技术进行空间表观基因组学
使用超分辨率显微镜,追踪约46个区域的染色质追踪显示,以抑制性表观遗传状态(如H3K27me3)为特征的基因组区域不是简单的紧凑结构,而是在结构域内表现出高度的染色质混合。ORCA(染色质结构的光学重建)顺序标记和成像数十至数百个短基因组片段,以千碱基级分辨率重建染色质的三维路径。其他染色质追踪技术,如MINA和Hi-M,在理解核结构和表观遗传状态方面也发挥着重要作用。基因组编辑工具CRISPR-Cas9系统也可用于可视化基因组组织。
3.2.4. 使用表观基因组MERFISH进行区域特异性表观基因组分析
表观基因组MERFISH是一种通过使用抗体-Tn5转posase介导的标记将表观遗传信号原位扩增为RNA分子,从而能够对基因组区域特异性表观遗传状态进行空间分析的技术。这些RNA分子随后使用MERFISH方法进行检测和定量。应用表观基因组MERFISH到小鼠脑组织成功实现了在单个细胞中同时检测100-200个不同基因组区域的组蛋白修饰状态。
3.2.5. 开放染色质的荧光成像与测序
可视化开放染色质区域的技术取得了显著进展。基于ATAC-seq概念的可视化转座酶可及染色质测定法(ATAC-see)使用装载有荧光标记DNA适配器的Tn5转posase。这种转posase将适配器原位插入到固定细胞内转录因子和其他蛋白质可及的开放染色质区域,从而将这些区域可视化为荧光信号。类似的方法是切口酶辅助测序(NicE-seq),它使用切口酶在可及DNA区域引入切口,然后在这些位点掺入荧光标记的核苷酸,从而标记和可视化开放染色质区域。
3.2.6. 使用膨胀显微镜(ExM)进行高分辨率表观基因组可视化
膨胀显微镜(ExM)通过将组织样本包埋在可膨胀的水凝胶中并物理膨胀它们来实现超分辨率成像,从而克服了传统光学显微镜的衍射极限。这种物理膨胀增加了DNA等分子之间的距离,使得能够使用标准光学显微镜以高分辨率分析基因组序列和表观遗传状态。膨胀显微镜已与DNA-FISH结合应用于表观基因组分析。

4. 集成测序与成像方法

如果能够在具有空间信息的完整细胞中读取DNA序列信息,将为各种生物过程中的表观基因组调控提供新的机制见解。原位基因组测序(IGS)已被开发为一种用于在细胞内同时分析DNA序列及其高阶染色质结构的创新方法。该技术的核心在于直接在细胞和胚胎中的DNA上进行测序反应(合成测序),同时读取碱基序列并记录其空间位置。膨胀原位基因组测序(ExIGS)结合了ExM和IGS,用于以高分辨率分析核异常与异常常染色质抑制热点之间的联系。

5. 关键挑战与未来展望

尽管现代表观基因组学工具令人印象深刻,但在这些方法变得常规和普遍可用之前,仍存在若干挑战。
5.1. 分辨率与数据稀疏性
单细胞测序方法本质上只检测微量的DNA或RNA,这会导致丢失事件和偏差。当前的分析流程通常假设来自同一样本的细胞共享潜在的身体和生物学原理,并使用通用模型来估算缺失数据。在成像中,空间分辨率从根本上受到光学衍射极限的限制,并且可观察的基因组区域严重依赖于探针设计和标记密度。区分二倍体细胞核中的两个等位基因仍然是一个技术挑战,但对于剖析等位基因特异性表观遗传不对称性至关重要。
5.2. 数据整合与系统分析
在单个细胞中统一表观基因组学、转录组学、蛋白质组学和代谢组学,同时保留高阶结构信息的细胞内时空技术代表了一个主要前沿。目前,尚无单一的实验方法能够同时捕获所有这些维度,然而这种广度对于真正全面地了解表观基因组如何与其他组学层相互作用是至关重要的。

6. 结论

单细胞、长读长、成像和空间多组学技术的快速进展已将表观基因组学转变为一门整合的、高分辨率的学科,将分子细节与细胞身份和3D染色质结构联系起来。这些方法已经在揭示发育和疾病中新的染色质调控机制,但广泛采用仍然受到数据稀疏性、成本和分析复杂性的限制。伴随着数据共享的开放标准,化学、光学和计算方面的持续创新对于将下一代表观基因组分析从研究实验室转化为常规生物医学和临床实践至关重要。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号