HALO:基于层次因果建模的单细胞多组学数据分析框架揭示表观-转录动态调控机制

【字体: 时间:2025年10月09日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对单细胞多组学数据整合中忽视模态间因果关系的瓶颈问题,开发了HALO(层次因果建模)框架。该研究通过解耦染色质可及性(scATAC-seq)与基因表达(scRNA-seq)的耦合/非耦合关系,成功揭示了细胞分化过程中的表观遗传调控时序规律。团队在皮肤毛囊、CD4+ T细胞和肺纤维化模型中发现:SOX4等关键因子通过超增强子介导远端调控,GATA3/T-bet协同调控Th细胞分化,肺泡上皮细胞命运决定受CEBPA/NKX2-1通路调控。该研究为发育生物学和疾病机制研究提供了创新方法论支撑。

  
在单细胞生物学研究领域,科学家们一直试图解开一个核心谜团:染色质的开放状态如何精确调控基因的转录活动?虽然染色质可及性(chromatin accessibility)通常被认为是基因转录的前提条件,但越来越多的证据表明,这两种分子事件并非总是同步发生。细胞中存在着"染色质 priming"现象——染色质区域保持开放状态却暂不启动转录,这种状态使细胞能够快速响应发育信号或环境变化。此外,转录后调控机制(如mRNA稳定性调控)和独立于转录活动的染色质重塑过程,进一步增加了表观基因组与转录组之间关系的复杂性。
传统的多组学整合方法(如multiVI、scMVP)通常假设染色质可及性与基因表达完全同步变化,忽略了二者之间可能存在的时序差异和独立调控机制。这种局限性使得研究人员难以捕捉细胞状态转换过程中的动态调控细节,特别是在细胞分化、免疫应答和疾病发生等关键生物学过程中。
为了解决这一根本问题,匹兹堡大学的研究团队在《Nature Communications》上发表了名为"HALO: hierarchical causal modeling for single cell multi-omics data"的研究论文。他们开发了一个名为HALO的层次因果建模框架,首次从因果关系的角度系统解析了scATAC-seq和scRNA-seq数据之间的动态相互作用。
研究团队运用了多项前沿技术方法:基于变分自编码器(VAE)的因果表示学习架构,将多组学数据分解为耦合和非耦合潜在表示;Granger因果检验用于识别峰值与基因间的调控时序关系;负二项回归模型进行基因-峰值匹配;最优传输(optimal transport)理论预测细胞状态转换概率;同时整合了SHARE-seq小鼠皮肤数据、NEAT-seq人CD4+ T细胞数据和SSc-ILD人肺上皮单细胞多组学数据。
HALO: 一个通过因果机器学习框架建模染色质可及性与基因表达相互作用的方法
研究团队首先建立了HALO的理论框架,其核心创新在于将染色质可及性与基因表达的相互关系分为两种情况:耦合(coupled)情况,即两者随时间依赖变化,受共同潜在混杂因素影响;解耦(decoupled)情况,即某些基因表达与其局部峰值模式随时间独立变化,表明存在不同的因果因素。在表示学习层面,HALO将scATAC-seq和scRNA-seq数据分解为耦合和非耦合潜在表示,分别捕捉模态共享信息和模态特异性信息。
**
HALO有效分离耦合和非耦合表示,增强对小鼠皮肤毛囊数据中模态共享和模态特异性信息的分析与解释
在小鼠皮肤毛囊数据应用中,HALO成功区分了细胞类型并捕捉了潜在时间动态。耦合表示ZcA和ZcR捕获了两个模态间的类似信息,而非耦合表示ZdA和ZdR则传递了不同信息。特别值得注意的是,非耦合ATAC表示ZdA中的簇4对应于先前通过染色质潜能(chromatin potential)识别的新根细胞(novel root cells),这些细胞表达与预期根细胞不同的标记基因。
通过可解释解码器,HALO识别了特定潜在ATAC表示中富集的转录因子(TFs),包括Wt1和Pou5f1,这些因子在Wnt/β-Catenin信号通路中发挥重要调控作用。耦合表示则捕获了Eda、Wnt和Sonic hedgehog(Shh)信号通路,这些通路对毛囊形态发生至关重要。
HALO从时间因果角度表征基因-峰值相互作用
在个体基因水平上,HALO通过负二项回归将局部峰值与基因表达关联起来,计算解耦和耦合分数来定量评估基因-峰值关系的解耦和耦合程度。研究发现,在不同谱系或特定发育分支中,某些基因(如Abl2、Dnajb1、Dlx3和Btg2)表现出非耦合行为——尽管相应的峰值随时间变化,但这些基因的表达水平保持相对稳定。
研究
研究进一步应用Granger因果关系分析来探索远端峰值-基因调控相互作用的潜在机制。发现在小鼠皮肤毛囊超级增强子区域内的九个局部峰值与Itga3表达存在Granger因果关系,揭示了远端调控的重要作用。
HALO揭示NEAT-seq检测的人原代CD4+效应T细胞中的调控因子
在人类CD4+效应T细胞研究中,HALO利用GATA3核蛋白水平作为潜在时间的代理变量,构建了UMAP嵌入来可视化不同的T细胞亚群。研究发现,RNA耦合9和ATAC耦合9表示与GATA3核蛋白水平呈负相关,其中RNA耦合9捕获了mTORC1信号通路(负向调控Th2分化),而ATAC耦合9则富集了ZFX/NR4A motif(NR4A已知可抑制Th2基因)。
研究还深入分析了T-bet和GATA3在Th1细胞中的协同表达现象。通过以T-bet和GATA3蛋白水平作为时间信息计算解耦分数,发现GZMA基因与其局部峰值在Th1细胞中表现出解耦动力学:随着GATA3蛋白水平升高,GZMA的局部峰值可及性降低,但GZMA基因表达却在GATA3高水平时增加。Granger因果关系测试进一步揭示,GZMA的局部峰值介导了GZMK的基因表达。
HALO揭示SSc-ILD中肺泡上皮分化的表观遗传调控
在系统性硬化相关间质性肺病(SSc-ILD)研究中,HALO分析了来自6个SSc-ILD和7个对照肺的肺泡上皮和终末分泌细胞。研究发现SSc-ILD样本中AT2细胞显著减少而分泌细胞增加,这些SSc-ILD肺中的AT2细胞反映了在EGF耗竭类器官中培养的AT2细胞的转录状态。
轨迹推断算法(scVelo、CellRank2和Palantir)揭示了AT2分化轨迹中的两个终末状态:簇1通过TRB-SCs进展为分泌细胞,而簇0分化为AT1细胞。两个非耦合ATAC表示(非耦合14和非耦合15)表征了向分泌细胞状态过渡的AT2细胞(簇1),这些表示中的顶级峰值在气道上皮特异性超级增强子和已知转录因子中富集。
研究
研究还发现EMT主调控因子SOX4在SSc-ILD中表达和局部峰值均增加。在向AT1终末分化过程中,SOX4基因表达与其局部峰值的动态变得解耦:局部峰值保持可及而基因表达下降。这些SOX4局部峰值与EMT相关长链非编码RNA(lncRNA)CASC15的表达存在显著的Granger因果关系。
研究进一步推断出SSc条件下AT2细胞中失调的基因调控网络,发现RFX家族转录因子对气道上皮分化至关重要,而TCF和NFI家族转录因子在肺泡上皮分化、存活和再生中发挥重要作用。
该研究通过HALO框架的创新性应用,不仅提供了强大的计算工具,更重要的是揭示了细胞分化过程中表观遗传调控的深层机制。研究发现过渡细胞状态(如皮肤毛囊中的TAC、Cortex和Medulla,以及大脑中的V-SVZ、IPC和Ependymal细胞)往往具有较高比例的非耦合基因-峰值对,表明这些细胞状态具有较高的表观遗传可塑性。
在疾病背景下,SSc-ILD中的AT2和TRB-SC细胞非耦合对比例增加,提示与疾病进展相关的动态基因调控变化。研究还证实了AT2细胞的双向潜能性——这些细胞根据微环境信号有潜力分化为TRB-SCs或AT1细胞,而表观遗传信息可以通过motif富集和细胞类型特异性超级增强子分析来塑造这种细胞命运决定。
HALO框架的建立为单细胞多组学研究提供了新的方法论支持,使研究人员能够从因果关系的角度深入探究基因调控的时空动态,为发育生物学、免疫学和疾病机制研究开辟了新的道路。随着多组学技术的不断发展,HALO有望扩展到更多模态的数据整合,最终为人类疾病治疗提供更精准的靶点和策略。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号