《Nature Communications》:Multi-omic relay velocity modeling uncovers dynamic chromatin-transcription regulation across cell states
编辑推荐:
本研究针对现有RNA速度模型在捕捉局部调控动态和整合表观基因组信息方面的局限,开发了深度学习框架MoFlow。该方法创新性地整合染色质可及性与转录组数据,在单细胞分辨率推断动力学参数,无需预设潜时间或固定基因分类。应用表明,MoFlow能准确重建发育轨迹、识别转录解偶联现象,并揭示RNA核输出速率对染色质-转录时序关系的调控作用,显著提升了细胞命运决定的动态解析能力。
在生命科学领域,理解细胞如何从一个状态转变为另一个状态——即细胞命运决定——是至关重要的科学问题。单细胞RNA测序(scRNA-seq)技术的出现,让我们能够以前所未有的分辨率观察细胞群体的异质性。然而,这项技术提供的只是基因表达的静态“快照”,就像一张张照片,无法直接告诉我们细胞未来的发展方向。为了解决这个难题,科学家们开发了RNA速度(RNA velocity)分析技术,它通过分析细胞中未剪接(pre-mRNA)与已剪接(mature mRNA)RNA的比例,来预测每个细胞未来的转录状态,仿佛为细胞动态变化录制了一部“延时电影”。
尽管传统的RNA速度模型,如scVelo,在描绘细胞轨迹方面取得了成功,但它们主要依赖RNA丰度信息,并通常假设一个全局统一的、线性的“潜时间”(latent time)。这就像试图用一张标准化的地铁线路图去描绘所有城市复杂多变的地下交通网络,显然会遗漏许多重要的局部细节和分支路径。更重要的是,基因转录的“开关”深受其周围染色质状态的影响,而传统模型却未能整合染色质可及性(chromatin accessibility)这一关键的调控层信息。随后出现的MultiVelo模型虽然尝试引入染色质信息,但仍依赖于固定的基因分类和共享的动力学假设,难以灵活捕捉细胞异质性和分支轨迹中的异步调控事件。因此,开发能够整合多组学数据、无需预设潜时间、并能解析局部动态调控的新型RNA速度模型,成为了领域内亟待突破的瓶颈。
针对这些挑战,韩国首尔大学和阿仁大学的研究团队在《Nature Communications》上发表了他们的最新研究成果。他们开发了一个名为MoFlow(多组学接力速度模型)的深度学习框架。MoFlow的核心创新在于,它将染色质可及性数据与转录组数据相结合,在一个“接力”式的模型结构中,为每个细胞推断其特有的动力学参数,包括染色质开闭速率(αc)、转录速率(α)、剪接速率(β)和降解速率(γ)。这种方法摒弃了全局潜时间的概念,转而通过寻找每个细胞在局部多组学空间中最可能的“未来邻居”来定义细胞状态演变的方向,从而能够灵活地模拟发育过程中的异质性、分支路径以及染色质与转录之间的异步调控。
为了开展这项研究,研究人员收集并分析了来自多个重要生物学系统的公开单细胞多组学数据集,包括发育中的人脑皮层、E18小鼠胚胎大脑、小鼠皮肤以及人造血干细胞和祖细胞(HSPCs)的10x Multiome或SHARE-seq数据。这些数据集同时包含了单细胞RNA测序和单细胞ATAC测序(测定染色质可及性)信息。MoFlow模型本身基于PyTorch Lightning框架构建,采用深度神经网络来学习从细胞观测值(染色质可及性c、未剪接RNA u、已剪接RNA s)到动力学参数的映射。其关键算法步骤包括:首先基于RNA动态寻找最优未来邻居细胞,然后评估在染色质“开放”和“关闭”两种假设下,哪种情况能更好地解释向该邻居的细胞状态转变,并选择损失更小的方向来指导模型参数的学习。模型评估采用了交叉边界方向正确性(Cross-Boundary Direction Correctness, CBDir)等指标,并利用动态时间规整(Dynamic Time Warping, DTW)分析来量化染色质与RNA信号之间的时间滞后。此外,研究还进行了基因功能富集分析(如DAVID, GSEA)以解释结果生物学意义。
MoFlow准确重建发育轨迹并揭示转录抑制机制的连续性
研究人员首先将MoFlow应用于发育中的人脑皮层多组学数据。结果显示,MoFlow推断的RNA速度流与已知的脑发育层级结构高度一致,准确地将早期伪时间值分配给了增殖性的循环祖细胞(Cyc.Prog.),并捕捉到其向分化神经元状态的过渡。在方向准确性上,MoFlow的CBDir得分显著高于scVelo、cellDancer和MultiVelo等现有方法。重要的是,MoFlow避免了其他方法出现的生物学上不合理的“回流”轨迹,例如从神经元反向到祖细胞。在机制层面,MoFlow无需预先定义基因的转录模式,即可复现并细化MultiVelo所描述的两种转录抑制模型(Model 1:染色质关闭导致转录沉默;Model 2:转录沉默先于染色质压缩)。通过计算m1(染色质关闭时RNA仍在增加)和m2(染色质开放时RNA已在减少)等分数,MoFlow发现与细胞周期相关的基因(多为Model 2)在祖细胞中高表达,并在向放射状胶质细胞(RG)转变时被协调抑制,这为早期神经发育中的异步转录抑制提供了更精细的解释。
MoFlow捕捉少突胶质前体细胞谱系中的转录解偶联和异步调控
在分析人脑数据中的少突胶质前体细胞(mGPC/OPC)谱系时,MoFlow根据基因沿伪时间的转录变化将其分为7个簇,功能富集分析显示这些簇依次对应细胞周期、迁移和神经元分化等过程。研究发现,早期与细胞周期相关的簇表现出更高的m2分数和RNA关闭(RNA-off)分数,表明存在协调的转录抑制。通过定义四种RNA速度状态(两者皆开、两者皆关、解偶联-s关、解偶联-u关),发现mGPC/OPC细胞群中存在高度的状态异质性,提示异步调控。以PDGFRA和MAP3K1基因为例,它们均表现出持续的未剪接RNA产生(vu≥ 0)但已剪接RNA水平下降(vs< 0)的“解偶联-s关”动态。动态时间规整分析显示,在MoFlow的全局伪时间或MultiVelo的全局潜时间下,这些基因存在负的c-s滞后(即RNA变化先于染色质),暗示转录活性可能独立于染色质重塑。而当使用MultiVelo的基因特异性潜时间时,这种负滞后消失,轨迹变得“理想化”,提示基因特异性时间拟合可能过度矫正数据。将成年脑单细胞数据投射到发育图谱中,发现63%的位于“解偶联-s关”区域的mGPC/OPC细胞被注释为OPC,支持了该动力学状态的生物学相关性。
MoFlow解析小鼠皮肤毛发 follicle分化中转录速率与染色质可及性的解偶联
将MoFlow应用于小鼠皮肤的SHARE-seq数据,成功重建了毛囊 Transit Amplifying Cells (TAC) 向不同终末状态分化的轨迹。MoFlow能够估计单细胞水平的基因特异性动力学参数,从而分析多速率动力学基因,包括“转录增强”基因。研究根据基因的转录速率(α)和染色质可及性(c)在不同细胞类型间的变异度(DAC分数),将基因分为四组:HCHA(高c高α)、HCLA(高c低α)、LCHA(低c高α)和LCLA(低c低α)。功能分析显示,LCHA基因(染色质稳定但转录可变)与染色体分离和纺锤体组织等细胞周期过程相关,并且与G2/M评分显著相关,表明这类基因可能通过快速调整转录而非染色质重塑来响应细胞内在状态变化。MoFlow准确预测了代表性基因的分化方向,例如LCHA基因Padi3(向髓质分化)和Myo10(向IRS分化),而MultiVelo和cellDancer在此类基因的轨迹重建上存在不足,凸显了MoFlow在解析染色质非依赖性转录调控方面的优势。
MoFlow揭示胚胎小鼠脑放射状胶质细胞中的转录动态和亚群异质性
在E18小鼠脑数据中,MoFlow成功重建了从Cyc.Prog.经RG、IPC向兴奋性神经元分化的轨迹,伪时间与细胞周期评分一致,且方向一致性优于其他模型。对基因沿伪时间的表达模式进行聚类和功能分析,揭示了从细胞周期、DNA修复到突触功能的进程。特别值得注意的是,一些DNA损伤反应基因在RG及其后代细胞中显示出升高的转录速率(α),且MoFlow推断其激活方向是从Cyc.Prog.指向RG,这与RG作为神经前体细胞在发育中激活保护性应激反应程序的观点一致,而MultiVelo则错误地预测了反向流动。
染色质可及性与已剪接RNA间的时间滞后提示RNA动力学塑造了调控延迟
通过动态时间规整分析量化染色质(c)与已剪接RNA(s)信号之间的时间滞后(c-s lag),发现相当一部分基因存在负滞后(即s变化先于c)。这些基因主要富集在两类:簇0-3(代表细胞周期等功能)和簇10。簇0-3的基因(如Ccnd2, Mki67)表现出s的衰减快于c的关闭,符合Model 2型转录关闭。而簇10基因(如Cdk12, Esf1)则表现出s的积累早于c的开放。整合来自NIH3T3细胞的RNA半衰期数据发现,存在负滞后的基因簇具有不同的动力学特征:簇0、3、10具有短的核内半衰期、快的核输出速率;而簇1、2则具有长的核内半衰期、慢的核输出速率。这为负滞后的产生提供了机制性解释:可能是快速的RNA核输出或降解(簇0,3),也可能是延迟的染色质关闭(簇1,2)。此外,簇10基因显著富集于多梳蛋白体和核斑等核内区室相关RNA,提示其可能在这些区室中被隔离,在特定刺激下被释放,从而产生早期的s信号。这为先前观察到的转录因子模体可及性与下游基因激活之间的时间滞后现象提供了机制性的解释。
denotes p<0.001, denotes
p<0.005,* denotes
p<0.05.'>
MoFlow重建造血分化轨迹
在人类造血干细胞和祖细胞数据上的应用进一步验证了MoFlow的普适性。MoFlow推断的速度场较好地再现了从HSC/MPP向红系、髓系、淋巴系和巨核细胞系分化的已知轨迹,其CBDir得分高于其他方法,表明其能更准确地捕捉造血系统中的谱系进展方向。
综上所述,MoFlow研究通过创新性地将染色质可及性整合进基于深度学习的接力速度模型,成功突破了现有RNA速度分析在捕捉局部动态和异步调控方面的限制。该模型不仅在不同生物系统中展现出更准确、更具生物学合理性的细胞轨迹推断能力,更重要的是,它提供了在单细胞分辨率下解析染色质与转录复杂互作的新视角。研究揭示的转录解偶联、染色质非依赖性转录增强、以及由RNA核输出动力学主导的染色质-RNA时序滞后等现象,极大地丰富了对细胞命运决定过程中基因表达动态调控规律的认识。尽管MoFlow在模拟远程增强子-启动子互作、转录记忆等方面仍有局限,但其作为一个强大的计算工具,为在复杂单细胞系统中解码细胞谱系规范和转录控制逻辑提供了新的可能,将推动发育生物学、疾病机制研究和再生医学等领域的进一步发展。