基于最优传输的空间转录组学揭示细胞命运景观——STORIES方法学突破
《Nature Methods》:STORIES: learning cell fate landscapes from spatial transcriptomics using optimal transport
【字体:
大
中
小
】
时间:2025年11月04日
来源:Nature Methods 32.1
编辑推荐:
本研究针对空间转录组学数据中细胞命运轨迹推断的挑战,提出了STORIES方法。该方法通过融合最优传输(Fused Gromov-Wasserstein)与Wasserstein梯度流学习,构建了空间感知的细胞分化潜能景观模型。研究团队在三个大型Stereo-seq时空图谱(小鼠发育、斑马鱼发育和蝾螈脑再生)上验证了方法的优越性,显著提升了空间一致性预测精度。在蝾螈神经元再生和小鼠胶质生成案例中,成功识别了Nptx1、Aldh1l1等关键标志物的表达趋势,并发现了新的驱动基因。该工作为发育和再生医学研究提供了强有力的计算工具,发表于《Nature Methods》。
随着空间转录组学技术的飞速发展,研究人员如今能够在组织空间背景下以单细胞分辨率追踪基因表达。通过多个时间点采集的空间转录组学大数据集,为理解发育、疾病发生等动态生物过程提供了独特机会。然而,这些数据的分析需要专门针对空间数据特殊挑战的轨迹推断工具。
在动态生物过程中,细胞不仅经历转录组变化,还进行空间重组。现有基于Wasserstein梯度流学习的轨迹推断方法在分析空间分辨转录组数据时面临挑战。这些方法构建围绕表示分化潜能的神经网络,但难以有效整合空间坐标信息。虽然少数基于最优传输(Optimal Transport, OT)的方法尝试从时空空间转录组数据推断轨迹,但它们通常只能在相邻时间点间建立细胞-细胞连接,无法预测细胞在未观测时间点的演化。
为了解决这一难题,由Geert-Jan Huizing、Jules Samaran等来自法国巴黎高等师范学院、巴斯德研究所的研究团队在《Nature Methods》上发表了题为“STORIES: learning cell fate landscapes from spatial transcriptomics using optimal transport”的研究论文。他们开发了一种名为STORIES(SpatioTemporal Omics eneRgIES)的新方法,能够利用融合Gromov-Wasserstein(Fused Gromov-Wasserstein, FGW)最优传输从时空空间转录组数据中学习细胞分化的因果模型。
研究团队开发的计算框架基于最优传输数学理论,使用FGW距离作为机器学习损失函数来学习分化的连续模型。该方法训练神经网络Jθ表示细胞分化潜能,仅依赖基因表达谱而不直接使用空间坐标作为输入。通过FGW损失函数,模型隐式引导学习到的潜能依赖于空间形态形成,且对旋转、平移和缩放等空间变换具有不变性。研究在三个大型Stereo-seq时空图谱(包含超过79万细胞)上进行了基准测试,并深入分析了蝾螈脑再生和小鼠中脑发育过程。
研究团队在三个大型Stereo-seq时空图谱上评估了STORIES的性能:小鼠发育图谱、斑马鱼发育图谱和蝾螈脑再生图谱。通过将数据分为训练集、早期测试集和晚期测试集,他们发现STORIES在所有测试案例中均优于现有方法PRESCIENT。
特别值得注意的是,在斑马鱼发育过程中,从12 hpf(受精后小时)到18 hpf的过渡期间,PRESCIENT错误预测Adaxial细胞分布在整个胚胎中,而STORIES正确地将Adaxial细胞与靠近脊索的细胞匹配。Adaxial细胞已知位于脊索旁边,并分化为慢肌细胞,而基于24 hpf的注释,慢肌细胞确实位于STORIES预测Adaxial细胞演化的相同区域。
在蝾螈脑再生的深入分析中,研究团队聚焦于参与神经元再生的细胞亚群:wntEGCs、反应性室管膜胶质细胞(reaEGCs)、再生中间祖细胞(rIPC1和rIPC2)、未成熟神经元(IMNs)以及各种兴奋性神经元。STORIES学习到的能量景观与原始出版物一致,为祖细胞状态分配高潜能,为中间状态分配中等潜能,为成熟状态分配低潜能。
通过应用CellRank分析,STORIES不仅检测到正确的分化阶段,还恢复了原始出版物中描述的三个主要轨迹:wntEGC-mpEX、reaEGC-rIPC2-dpEX和reaEGC-rIPC1-IMN-nptxEX。重要的是,原始作者需要通过分离特定空间区域并指定轨迹起点来识别这些轨迹,而STORIES无需这些手动输入即可实现相同结果。
研究发现空间环境影响细胞命运决策。在15 dpi(损伤后天数)时,位于损伤右侧的reaEGCs倾向于向mpEX分化,而左侧的reaEGCs则更倾向于向nptxEX分化。这种空间组织在可用的另外两个重复中也观察到,支持其生物学相关性。
基因趋势分析恢复了已知标志物的预期表达模式:Vim(编码关键细胞骨架蛋白)在reaEGCs中高表达并沿分化过程下降,而Nptx1(参与突触可塑性)在NptxEX中表达上升。无监督发现的基因趋势揭示了分化早期阶段与Hes5(已知在神经分化背景下维持干性)和Cdc25b(神经元产生的关键细胞周期调节因子)高表达相关。分化后期则与微管相关蛋白基因Map1a(对神经发育和再生至关重要)和L1cam(显示促进轴突再生)的高表达相关。
转录因子富集分析确定了可能的转录调节因子,其中最显著富集的是TCF7L2,这是Wnt/β-catenin信号通路中的关键调节因子,在鼠类模型神经元再生和蝾螈肢体再生中均有研究。其他顶级转录因子包括SP1和MYC,在神经元再生背景下有描述,并在蝾螈肢体再生中计算检索到。
在小鼠背侧中脑发育的研究中,研究团队聚焦于放射状胶质细胞(RGCs)分化为神经母细胞(NeuBs)或胶质母细胞(GlioBs)的分支轨迹。STORIES学习到的能量景观与原始出版物一致,为RGCs分配高潜能,为更分化的NeuBs和GlioBs分配低潜能。
细胞-细胞转换分析显示,STORIES不仅检测到正确的分化阶段,还恢复了从RGC到胶质和神经细胞命运的预期分支。与蝾螈案例类似,原始出版物需要使用Monocle 3并手动设置RGC作为轨迹起点,而STORIES无需手动输入即可实现相同结果。
空间分析显示,RGCs向NeuBs或GlioBs的分化似乎受其空间位置影响。在E16.5时,吻部区域的RGCs倾向于向NeuBs分化,而尾部极端区域的RGCs倾向于向GlioBs分化。中央区域的RGCs倾向于组织成向NeuBs或GlioBs分化的细胞簇。这些结论得到了已分化细胞空间位置与预测命运概率之间一致性的支持。
基因趋势分析确认了预期模式:Mki67(增殖标志物)在RGCs中高表达并沿分化下降,Aldh1l1(星形胶质细胞标志物)在GlioBs中表达上升。分化早期阶段与细胞周期基因Gmnn、Rrm2和Hmgb2高表达相关,而分化后期阶段与谷氨酰胺合成酶基因Glul(关键星形胶质细胞标志物)高表达相关。研究还发现了Glis3等可能驱动胶质生成的基因,该基因在此背景下研究较少,但最近被建议作为胶质瘤中抑制增殖的治疗靶点。
转录因子富集分析确定了候选转录调节因子,包括在胶质生成中研究过的SOX4和NOTCH2,以及在胶质瘤背景下研究过的MYC、MYCN和MAX。
本研究提出的STORIES框架为从多个时间点采集的空间转录组数据进行轨迹推断提供了强大工具。通过基准测试,研究证明了在时空单细胞数据中考虑空间信息进行梯度流学习的显著优势。
STORIES提供了一个基于潜能能量的可解释分化模型。该方法的主要新颖之处在于其学习空间感知潜能的能力,这一方法学发展至关重要,因为生物过程如发育和再生涉及协调的转录组变化和组织重组。STORIES不仅学习了隐式捕捉空间对细胞命运决策影响的Waddington景观,还通过无监督发现潜在驱动因素和机制恢复了其基础调控景观。
随着空间转录组学技术的快速发展,单细胞分辨率的时空图谱数量预计将稳步增加。STORIES适用于像Stereo-seq或Visium HD这样的单细胞分辨率空间转录组学技术,也可通过去卷积技术应用于低分辨率数据。此外,该方法可适应像MERFISH这样的成像技术,这些技术提供高分辨率但只能检测有限基因面板。
未来工作可探索更复杂的能量泛函,如相互作用能量,以整合细胞-细胞通信到轨迹推断中,从而研究复杂疾病的发病机制。尽管存在数值挑战,但将Wasserstein流扩展到Gromov-Wasserstein流将为更全面建模生物过程铺平道路。将此与现有形态发生模型(如Alan Turing的反应-扩散模型)联系起来,是进一步研究的有趣方向。
该研究提供的开源Python软件包无缝集成到经典Python单细胞分析流程中,使研究人员能够利用Scverse工具进行预处理和下游分析。通过GPU加速,STORIES能够高效处理大规模数据集(在包含396,000个细胞和七个时间点的数据集上,使用A40 Nvidia GPU训练时间少于20分钟),为发育和再生生物学研究提供了强大且可访问的计算工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号