探索单细胞差异表达分析新范式:突破局限,精准解析转录组

【字体: 时间:2025年03月18日 来源:Genome Biology 10.1

编辑推荐:

  为解决单细胞差异表达分析难题,研究人员提出 GLIMES 框架,提升分析准确性。

  在生命科学的微观世界里,单细胞转录组学的差异表达分析(Differential Expression analysis,DE 分析)就像一把神奇的钥匙,试图打开细胞类型特异性响应刺激的奥秘之门。然而,当前的研究却发现,无论是专门针对单细胞数据的方法,还是从批量研究中借鉴而来的技术,在实际应用中都暴露出了诸多问题。
在单细胞 RNA 测序(scRNA-seq)数据中,“零” 值过多成为了一大难题。这些 “零” 可能是真正不表达的基因( genuine zero),也可能是低表达但未被检测到的基因(sampled zero),甚至可能是高表达却因技术原因未被捕获的基因(technical zero)。但现有研究往往将其视为无信息的技术假象,在预处理时直接去除或修正,这就像在挖掘宝藏时,误把有价值的线索当作垃圾扔掉,丢失了大量关键信息,还可能干扰后续分析,导致真正重要的细胞标记基因被忽视。

归一化(normalization)在基因组学中是一个重要环节,旨在减少技术变异,确保数据的可靠性。但在单细胞研究中,不同的归一化方法却带来了不同的困扰。例如,文库大小归一化在批量 RNA 测序中不可或缺,因为无法得知 PCR 扩增引入的偏差,只能通过估算样本特异性大小因子来校正,从而估计相对 RNA 丰度。但在 scRNA-seq 中,由于采用了独特分子标识符(UMIs),可以实现 RNA 水平的绝对定量,再使用基于大小因子的归一化方法(如每百万映射读数计数,CPM),反而会将 UMIs 提供的有用数据转化为相对丰度,掩盖了真实的表达水平差异。而批次效应归一化和数据分布归一化,也都存在各自的问题,会影响数据的完整性和分析结果的准确性。

供体效应(donor effects)同样不可小觑。在单细胞研究中,供体效应常常与批次效应相互混淆,很多单细胞 DE 分析方法由于未能充分考虑供体间的差异,容易产生假阳性结果。虽然常用的伪批量分析(pseudo-bulk analysis)在一定程度上能解决供体效应问题,但它过于简化,忽略了样本内的异质性,还可能因默认的归一化处理带来其他弊端。

此外,scRNA-seq 分析中常见的分层、顺序工作流程,会导致累积偏差(cumulative biases)。聚类分析依赖相对表达,对预处理步骤中的误差和偏差有一定抗性,但 DE 分析在基因层面进行,依赖聚类的分组标签,不同基因受偏差影响不同,这使得累积偏差最终会降低检测差异表达基因的能力。

为了攻克这些难题,来自美国芝加哥大学统计学系、密歇根大学公共卫生学院生物统计学系等机构的研究人员展开了深入研究。他们提出了一种全新的统计框架 —— 广义线性混合效应模型用于单细胞表达研究(Generalized LInear Mixed-Effects model for Single-cell expression studies,GLIMES),相关研究成果发表在《Genome Biology》上。

研究人员在开展研究时,主要运用了以下关键技术方法:首先,使用了多个公开的 scRNA-seq 数据集,如绝经后输卵管、人类脊髓细胞、狼疮患者外周血单个核细胞等数据集。然后,运用广义线性混合模型(GLMMs),分别构建了 Poisson-glmm 和 Binomial-glmm 模型,前者基于 UMI 计数,后者基于零比例进行分析。同时,对多种现有的 DE 分析方法进行基准测试,包括伪批量方法(如 Pb-DESeq2、Pb-edgeR)、单细胞特异性方法(如 MAST、Wilcox、MMvst、MMpoisson)等,通过对比评估 GLIMES 的性能。

研究人员通过多个案例研究对 GLIMES 的性能进行评估。在绝经后输卵管不同免疫细胞类型的 DE 分析中,对比不同方法在不同细胞类型、不同文库大小差异情况下的表现。例如,对比 CD8+ T 细胞亚群时发现,基于 CPM、VST 等归一化方法会削弱基因表达差异,而 GLIMES 的 Poisson-glmm 和 Binomial-glmm 方法直接使用 UMI 计数或零比例,能更好地保留差异表达基因(DEGs)的信息,检测出更多 DEGs。在 CD4+ T 细胞与 NK 细胞的比较中,即使文库大小差异较小,GLIMES 方法依然能识别出更多其他方法未检测到的 DEGs。对于异质性细胞群体,如成熟 T 细胞与 CD4+ T 细胞的混合群体,Poisson-glmm 检测到的有效 DEGs 比其他方法更多。

在人类脊髓细胞不同区域的 DE 分析中,研究人员分析了包含多个患者样本的数据集,考虑到样本存在供体和批次效应。结果显示,原始计数比归一化计数保留了更多区域间的差异,GLIMES 方法在处理该数据时,能有效识别出与背角和腹外侧白质区域功能相关的 DEGs,揭示了这些区域在感觉和运动信号处理中的不同作用。

在 B 细胞不同状态的 DE 分析中,研究人员对狼疮患者外周血单个核细胞在未刺激和 IFN-β 刺激后的 B 细胞数据进行研究。发现常规用于检测 DEGs 的指标,如倍数变化(fold change),在低计数数据中存在局限性,而基于绝对差异建立的新准则能更准确地识别 DEGs。GLIMES 方法在该研究中也能有效识别出与免疫反应相关的 DEGs,揭示了 IFN-β 刺激后 B 细胞功能的变化。

研究人员还对不同方法的假发现率(FDR)和功效进行评估。通过对合成数据集的分析,发现 Poisson-glmm(采用新的 DEG 标准)、Binomial-glmm、Wilcox 等方法能较好地控制 FDR,Poisson-glmm、MAST 和 Wilcox 在功效方面表现良好。同时,研究发现包含文库大小归一化会对 DE 分析结果产生偏差。

综合来看,GLIMES 通过利用 UMI 计数和零比例作为输入,结合广义 Poisson 和 Binomial 混合效应模型来处理批次效应和样本内变异,使用绝对 RNA 表达而非相对丰度,提高了分析的敏感性和稳健性,减少了模型错误指定,为从单细胞数据中提取更有生物学意义的信息提供了有力支持。这一研究成果挑战了现有的单细胞转录组分析工作流程,强调了谨慎选择归一化策略的重要性,为更准确、更可靠的单细胞转录组分析开辟了新道路,有望推动生命科学和医学领域在单细胞层面的深入研究。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号