编辑推荐:
为解决测量全基因组顺式调控元件(CREs)上效应蛋白组织方式的难题,研究人员开展了 “Multiscale footprints reveal the organization of cis-regulatory elements” 主题研究。他们开发 PRINT 和 seq2PRINT,揭示了 CREs 在分化和衰老中的架构变化,为理解基因调控和疾病机制提供新视角。
在生命的微观世界里,基因表达的调控就像一场精密的交响乐演奏,而顺式调控元件(CREs)则是这场演奏中至关重要的指挥家。CREs 通过控制基因表达,影响着细胞的命运、个体的发育以及疾病的发生发展 。然而,想要深入了解这场 “交响乐” 的演奏机制并非易事。目前,测量全基因组中效应蛋白在 CREs 上的组织方式的方法十分有限,这严重阻碍了科学家们探索 CREs 结构与细胞命运、疾病之间的联系。就好比在黑暗中摸索,缺乏有效的工具,难以看清基因调控的真实面貌。为了打破这一困境,来自麻省理工学院和哈佛大学 Broad 研究所、哈佛大学等机构的研究人员踏上了探索之旅。他们开展了一项极具意义的研究,致力于揭示 CREs 的组织架构,相关成果发表在顶尖学术期刊《Nature》上。
在研究过程中,研究人员主要运用了以下关键技术方法:一是开发了 PRINT(protein–regulatory element interactions at nucleotide resolution using transposition)这一计算方法,它能从批量和单细胞染色质可及性数据中识别不同大小的 DNA - 蛋白质相互作用足迹;二是构建了 seq2PRINT 框架,利用深度学习精确推断转录因子(TFs)和核小体的结合,并解读 CREs 的调控逻辑;三是通过同时进行高通量 ATAC 和 RNA 表达测序(SHARE–seq),生成单细胞染色质可及性测序(scATAC–seq)和单细胞 RNA 测序(scRNA–seq)数据集,从而深入研究细胞分化和衰老过程中 TFs 和核小体的结合动态。
下面让我们详细看看他们的研究结果:
- 识别多尺度足迹:PRINT 方法成功克服了 Tn5 转座酶的序列偏差问题,能在多种尺度上高灵敏度和特异性地检测 DNA - 蛋白质相互作用足迹。无论是在体外实验中与纯化的 MYC/MAX 或 CEBPA 孵育的去蛋白化 DNA,还是在哺乳动物细胞中,PRINT 都展现出强大的检测能力,可识别出核小体和特定 TFs 的独特足迹模式。
- DNA 序列模型用于足迹分析:seq2PRINT 模型以 DNA 序列为输入,能够准确预测核小体和 TFs 的足迹。通过分析关键序列特征,它不仅可以识别已知的基序,还能发现新的基序。而且,seq2PRINT 在预测 TFs 结合方面表现卓越,对一些传统方法难以检测的弱结合或无直接足迹的 TFs 也能精准预测。
- cCREs 在造血过程中的重组:研究人员利用 SHARE–seq 技术对人骨髓细胞进行研究,发现 TFs 在不同细胞类型的同一 cCRE 上的结合模式存在差异。在红细胞分化轨迹中,cCREs 围绕中心 TFs 依次建立并扩展,侧翼 TFs 在发育后期结合,这表明增强子的建立是一个渐进的过程。在 B 细胞分化轨迹中也发现了类似的 cCREs 顺序建立模式。
- 新基序表征衰老的造血干细胞:研究人员对年轻和年老小鼠的造血干细胞(HSCs)进行研究,发现 cCREs 在衰老过程中 TF 结合发生了广泛变化。通过 seq2PRINT 分析,鉴定出了与衰老相关的新基序,如含有 Ets 同二聚体或异二聚体与 Gata、AP - 1 和 Runx 基序的复合基序在老年 HSCs 中活性增加。同时,研究还观察到老年 HSCs 中核小体足迹广泛减少,且与特定 TFs 的变化相关。
综合上述研究,研究人员通过开发 PRINT 和 seq2PRINT 等技术,成功揭示了 TFs 结合和核小体重定位在细胞分化和衰老过程中的复杂动态变化。这一研究成果意义重大,为从染色质可及性数据中获取丰富的 DNA 结合蛋白动态信息提供了有效方法,有助于深入理解基因表达调控的机制,为探索细胞命运决定、个体发育以及衰老相关疾病的发病机制提供了新的视角和理论依据。不过,该研究也存在一定的局限性,例如未纳入转座片段长度这一分析特征,深度学习可能会遗漏罕见或非规范的结合事件,且 scATAC–seq 的足迹分析需要伪批量处理。但这并不影响其在生命科学和医学领域的重要价值,后续研究可以在此基础上进一步完善和拓展,为生命科学的发展注入新的活力。