《PLOS Computational Biology》:Assessment of dispersion metrics for estimating single-cell transcriptional variability
编辑推荐:
这篇研究性文章(非综述)通过系统比较Gini指数、方差均值比(VMR/Fano因子)、方差、变异系数(CV、CV2)和香农熵等六种离散度度量指标,评估了它们在量化单细胞RNA测序(scRNA-seq)数据中转录变异性(或噪声)的性能。研究发现,Fano因子在大多数情况下是衡量转录变异性最稳健且可解释性强的指标,能够识别出与差异表达基因(DEGs)正交的、具有生物学相关性的基因和通路,为理解发育、疾病等复杂生物过程提供了超越均值表达的新见解。
模拟评估单细胞计数变异性的相对敏感性
研究人员首先通过模拟单细胞数据,系统比较了六种常用离散度度量指标对转录变异性的量化性能。这些指标包括常用于衡量经济不平等的Gini指数、衡量偏离泊松分布程度的方差均值比(VMR/Fano因子)、衡量信息不确定性的香农熵、标准化离散度度量变异系数(CV)及其平方(CV2),以及简单直观的样本方差。研究模拟了多种分布,包括泊松分布、负二项分布、Beta-泊松分布、跨栏负二项分布和均匀分布,以涵盖scRNA-seq数据可能的各种情况。
模拟结果显示,Fano因子、方差、CV和CV2具有尺度不变性,即不依赖于数据集大小,而香农熵值会随数据集增大而增加。更重要的是,研究发现Gini指数、CV和CV2会随抽样分布离散度的增加而降低,这与一个变异度量指标预期应与数据离散度同向变化的直觉相悖。相比之下,Fano因子和方差随着分布离散度的增加近似线性增长,且独立于数据集大小。由于噪声度量关注的是变异而非均值表达,因此捕捉相对变异性的Fano因子比捕捉绝对变异性的方差更适合量化转录变异性。在模拟的过离散(泊松-对数正态)和零膨胀(跨栏负二项)数据场景中,Fano因子也表现稳健。这些模拟结果表明,在所测试的统计指标中,Fano因子是量化转录变异性的一个稳健指标。
Gini指数随模拟scRNA-seq计数变异性增加而降低的悖论行为
研究观察到了Gini指数在负二项分布等抽样分布中的“悖论行为”:当分布的理论方差增加时,Gini指数反而降低。这可以从分布形态和Gini指数的经济学起源来理解。Gini指数源于洛伦兹曲线,衡量的是种群内的相对差异(不均衡),而非分布的绝对展宽。在生物学语境下,这引出了一个根本问题:当一个基因在某些细胞中表达而在其他细胞中不表达(“数字”噪声),与在所有细胞中表达但水平不同(“模拟”噪声)时,哪种情况意味着基因“噪声”更大?研究表明,根据感兴趣的特征,不同的统计异质性度量可作为转录噪声的代理。例如,Gini指数可能适用于捕捉具有快速开关动力学特性的基因,但在一般情况下,Fano因子可能是更稳健的转录变异性度量。
转录变异性与基因特征的关联
接下来,研究将Fano因子应用于一个公开的scRNA-seq数据集,该数据集分析了母体高血糖症(matHG)对胚胎小鼠心脏先天性心脏病(CHD)的影响。研究人员量化了心肌细胞在E9.5和E11.5时间点基因特异性的转录变异性,并检验了转录变异性变化与转录水平、基因长度、启动子GC含量和进化基因年龄等基因特征之间的相关性。结果显示,转录变异性的绝对变化与这些基因水平因素之间缺乏显著相关性,表明通过测量转录变异性捕捉到的基因表达方面,与这些特征相对独立。
转录变异性揭示不同于差异基因表达的生物学见解
研究进一步评估了Fano因子在量化转录变异性中的应用。通过分析matHG数据集,发现转录变异性变化最大的基因与差异表达基因(DEGs)重叠度很低。例如,在E9.5和E11.5时间点,前100个最显著的DEGs与前100个VMR绝对变化最大的基因重叠率均低于4.2%。
基因集富集分析(GSEA)显示,基于DEGs和基于转录变异性基因集富集的通路截然不同。例如,在E9.5时间点,DEGs富集于与活性氧和糖尿病相关疾病状态的通路,而转录变异性基因集则富集于与增殖和生长相关的信号通路,如Hippo信号通路。转录因子(TF)基序富集分析也发现了两组基因上游调控因子的差异。在转录变异性大的基因中富集的基序包括Tead、Fos、Jun和Ctcf等,其中Tead、Fos和Jun是Hippo信号通路调节的Tead-AP1轴的组成部分,该通路在妊娠期糖尿病与CHD的关联中已有涉及。值得注意的是,Hippo通路中的许多基因并非DEGs,这表明转录变异性分析可以捕获差异表达分析所遗漏的信息。
研究还在其他数据集上验证了这些发现。在对21三体(T21)小鼠心肌细胞数据集的分析中,同样观察到转录变异性大的基因揭示了不同于差异表达分析的通路。此外,为了检验不同测序平台间转录变异性估计的稳健性,研究将Fano因子应用于一个Drop-seq的鼠神经元数据集,同样发现利用Fano因子变化进行GSEA和TF基序分析,能够识别出差异表达分析之外的其他通路和基因。
最后,研究探讨了VMR变化反映的潜在表达模式。通过分析三个不同数据集,发现VMR的变化与平均表达水平的变化以及表达该基因的细胞比例的变化呈负相关。然而,具体的模式因基因和平台而异。有些基因(如Neurod6)表现出表达细胞比例的较大变化,而另一些基因(如Stmn2)则在表达细胞比例变化相对较小的情况下,显示出UMI计数分布形状的改变。这表明转录变异性作为一个工具,能够捕捉到由“数字”或“模拟”表达变化驱动的生物学差异。
讨论
本研究通过比较六种度量单细胞数据离散度指标的敏感性和行为,为更稳健地量化和研究转录变异性提供了依据。总体而言,Fano因子是所测试指标中可靠的单细胞数据离散度度量。研究还通过在两个测序技术、三个scRNA-seq数据集中的应用证明,量化转录变异性可用于识别候选基因和通路,从而拓宽我们对生物过程的理解。这项工作强调了在单细胞数据分析中加入转录变异性计算分析的价值,其能够提供超越差异表达分析所观察到的生物学见解。未来的工作可以致力于开发原则性的统计检验来评估条件或数据集之间VMR的差异,以进一步扩展scRNA-seq数据中噪声建模的适用性。