CytoTRACE 2:基于可解释深度学习的单细胞发育潜能预测新框架

《Nature Methods》:Improved reconstruction of single-cell developmental potential with CytoTRACE 2

【字体: 时间:2025年10月28日 来源:Nature Methods 32.1

编辑推荐:

  研究人员开发了CytoTRACE 2这一可解释深度学习框架,用于从单细胞RNA测序数据预测绝对发育潜能。该研究解决了细胞潜能评估的跨数据集可比性问题,在多种平台和组织中优于现有方法,实现了单细胞分化景观的精细图谱绘制,为再生医学和癌症生物学提供了新见解。

  
在生命科学领域,理解细胞的发育潜能——即细胞分化为其他细胞类型的能力——一直是研究的核心问题。从受精卵到成熟后代,所有细胞在多细胞生命中都呈等级组织,每个细胞具有不同的潜能,从能够生成整个生物体的全能细胞,到多能、寡能、单能以及分化细胞,其发育潜能逐渐受限。尽管谱系追踪、功能移植实验和单细胞基因组学扩大了我们对细胞潜能的理解,但仍需要可解释的方法来探索发育程序、预测潜能状态,并生成适用于再生和癌症生物学的见解。
此前,CytoTRACE作为一种从单细胞RNA测序数据预测细胞成熟度的计算方法被提出,它基于每个细胞表达的基因数量。然而,与其他轨迹推断方法类似,CytoTRACE提供的预测是数据集特异性的,难以统一跨数据集的结果并将其置于更广泛的细胞潜能框架中。为了克服这些挑战,研究人员开发了CytoTRACE 2,这是一个可解释的深度学习框架,用于从scRNA-seq数据确定单细胞潜能类别和绝对发育潜能。
这项研究发表在《Nature Methods》上,其意义在于CytoTRACE 2能够学习易于解释的多变量基因表达程序,并实现发育潜能的准确预测。此外,它通过多种机制抑制批次和平台特异性变异,包括基因表达的竞争表示和训练集多样性。该方法揭示了细胞潜能的跨组织关联,并突出了可解释深度学习在健康和疾病中表征单细胞发育状态的价值。
研究人员策划了一个广泛的人类和小鼠单细胞潜能图谱,包含125个标准化细胞表型。这些表型被分为六大潜能类别——全能、多能、多能、寡能、单能和分化——并基于谱系追踪和功能实验的预期发育顺序进一步细分为24个粒度级别。使用来自16个组织和13项研究的93个细胞表型的训练集来开发模型,其余数据保留用于性能评估。
CytoTRACE 2使用一种称为基因集二值网络的新型可解释深度学习架构解码发育潜能。GSBNs为基因分配二值权重(0或1),识别定义每个潜能类别的高判别性基因集。每个潜能组可以学习多个基因集,并且驱动模型预测的信息基因可以轻松提取——这优于传统的深度学习架构。因此,CytoTRACE 2为每个单细胞转录组提供两个关键输出:(1)具有最大似然的潜能类别和(2)通过整合跨潜能类别的GSBN预测并将范围从1(全能)校准到0(分化)而产生的连续“潜能分数”。
基于转录相似细胞占据相关分化状态的假设,CytoTRACE 2还利用马尔可夫扩散结合最近邻方法来平滑个体潜能分数。在编译了真实数据集汇编后,研究人员通过评估潜能预测的准确性和已知发育轨迹的排序来评估CytoTRACE 2的性能。他们使用了两种发育排序定义:“绝对顺序”,将预测与跨数据集的已知潜能水平进行比较;和“相对顺序”,将每个数据集中的细胞从最少分化到最多分化进行排序。
为了开展这项研究,研究人员主要运用了几项关键技术方法:首先构建了一个包含33个人类和小鼠scRNA-seq数据集的单细胞潜能图谱作为训练和测试基础;开发了基因集二值网络这一核心深度学习架构,用于识别与潜能类别相关的基因集;采用加权Kendall相关分析来量化预测发育顺序与已知顺序的一致性;通过留一法交叉验证和留分支交叉验证来评估模型的泛化能力;并利用CRISPR筛选数据、定量PCR和多重原位mRNA成像等技术对模型发现的关键基因进行了实验验证。研究涉及的样本队列来源包括公开数据库中的多种人类和小鼠组织样本,以及部分实验自行采集的小鼠造血细胞和肠道组织。
Development and benchmarking of CytoTRACE 2
研究人员首先评估了模型超参数,观察到在广泛的值范围内性能变化最小。基于此,他们选择了稳定的超参数并重新训练了模型。在训练数据上,CytoTRACE 2在区分绝对潜能方面达到了高准确度。为了验证该方法,研究人员将分析扩展到未见过的数据,包括涵盖九个组织系统、七个平台和93,535个可评估细胞的14个保留数据集。在测试中,对广度和粒度潜能标签的性能始终很高,并且对于训练期间缺失的不同表型具有鲁棒性。为了严格评估泛化能力,他们在潜能图谱的不同子集上重新训练了CytoTRACE 2,包括随机训练测试分割和不同发育系统(称为“分支”)被保留在训练之外的情景。在所有情况下,结果与真实情况高度相关,表明潜能相关生物学在数据集之间是保守的。
CytoTRACE 2的一个关键优势是能够在从1(全能)到0(分化)的连续尺度上预测绝对发育潜能,这使得跨数据集比较成为可能,并避免了在不存在发育顺序的情况下强加顺序。例如,与它的前身不同,CytoTRACE 2证实了颅神经嵴细胞前体中的多能性程序,并正确区分了含有和不含有未成熟细胞的数据集。它在排序来自六个数据集的62个发育时间点的小鼠单细胞转录组方面也优于其他方法,并在小鼠发育过程中准确捕捉了258个可评估表型的潜能逐渐下降——无需数据整合或批次校正。CytoTRACE 2潜能预测还与急性髓系白血病中已知的白血病干细胞特征一致,并识别了少突胶质细胞瘤中已知的多系潜能,突出了其对癌症的适用性。
接下来,研究人员对CytoTRACE 2与多种细胞潜能分类和发育层次推断策略进行了基准测试。CytoTRACE 2在33个数据集的细胞潜能分类中优于八种最先进的机器学习方法,实现了更高的中位数多类F1分数和更低的平均绝对误差。此外,它在跨数据集(绝对)和数据集内(相对)性能方面超过了八种发育层次推断方法,在重建57个发育系统(包括来自Tabula Sapiens的数据)的相对排序时,平均相关性高出60%以上。与近19,000个注释基因集和scVelo(一种用于预测未来细胞状态的广义RNA速度模型)比较时也观察到类似结果。
Model interpretability and cross-tissue signatures of cell potency
鉴于GSBN设计的固有可解释性,研究人员接下来探索了驱动潜能预测的分子程序。跨潜能图谱,GSBN模块产生了分化状态的连贯梯度。排名最高的核心转录因子Pou5f1和Nanog在多能性基因中排名前0.2%。为了进一步探索这一假设,他们分析了一个大规模CRISPR筛选的数据,其中约7,000个基因在多能小鼠造血干细胞中被逐个敲除,并评估了其体内的发育后果。在5,757个与CytoTRACE 2特征重叠的基因中,排名前100的正多能性标记富集于敲除促进分化的基因,而排名前100的负标记富集于敲除抑制分化的基因。这一趋势在不同数量的顶级标记中是一致的,并且对多能性高度特异,强调了学习潜能表示的真实性。
为了更深入地分析小鼠和人类组织中的多能性,并探索CytoTRACE 2在生物标志物发现方面的潜力,研究人员接下来将通路富集分析应用于按特征重要性排名的基因。值得注意的是,“胆固醇代谢”成为领先的多能性相关通路。在该通路中,三个与不饱和脂肪酸合成相关的基因(Fads1、Fads2和Scd2)位列顶级标记之中。这些基因在潜能图谱中的125个表型中在多能细胞中一致富集。
为了实验证实这些发现,研究人员对分选成多能、寡能和分化亚群的小鼠造血细胞进行了定量PCR,并对与多能性标记Lgr5和Fgfbp1共染色的小鼠肠上皮进行了多重原位mRNA成像。在这两种方法中,Fads1、Fads2和Scd2在多能细胞中显示出可重复且优先的表达。虽然脂肪酸代谢与干细胞生物学有关,但尚无研究特别将脂质代谢基因归因于不同的潜能水平。因此,CytoTRACE 2提供了一个框架来揭示分子关系并促进新的假设和发现。
研究结论表明,CytoTRACE 2是一个可解释的深度学习框架,可从scRNA-seq数据预测细胞潜能和连续分化状态。与以前的方法不同,它将干性和伪时间与绝对发育潜能联系起来,提供跨数据集的兼容性和驱动其预测的分子谱的透明度。然而,这项研究有几个局限性。与所有监督机器学习方法一样,CytoTRACE 2依赖于其训练数据的质量和广度,尽管在不同训练测试分割中观察到稳健的结果,并且中度标记变异具有良好的耐受性。在分析RNA含量或表达基因数量非常少的细胞时,性能可能会下降。虽然一些表型在保留数据中被错误分类,但绝对误差仍然很低,并且优于现有方法。最后,尽管当前模型是在人类和小鼠数据上训练的,但直系同源基因映射可能会将其适用性扩展到其他物种。鉴于其已证明的优势,预计CytoTRACE 2将立即用于提高我们对细胞潜能的理解,并对在改变发育层次起作用的疾病中识别新的生物标志物和治疗靶点产生影响。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号