单细胞RNA测序中差异检测工作流程的开发与整合分析:揭示基因表达分布新维度
《BMC Genomics》:Differential detection workflows for multi-sample single-cell RNA-seq data
【字体:
大
中
小
】
时间:2025年10月08日
来源:BMC Genomics 3.7
编辑推荐:
本研究针对单细胞RNA测序(scRNA-seq)数据中传统差异表达(DE)分析仅关注均值差异的局限性,开发了八种差异检测(DD)工作流程。通过系统评估发现基于edgeR_NB_optim的伪批量策略最优,其可有效控制I型错误并提高检测效能。研究进一步提出将DD与DE结果整合的阶段性检验框架,在COVID-19和红斑狼疮案例研究中证实DD能捕获DE分析遗漏的生物学信号,为单细胞转录组分析提供互补视角。
在单细胞转录组学飞速发展的今天,科学家们能够以前所未有的分辨率观察细胞间的异质性。传统差异表达(DE)分析通过比较不同条件间基因表达的平均值,已成为单细胞RNA测序(scRNA-seq)数据下游分析的核心工具。然而,基因表达分布的其他特征——如检测频率的差异——同样承载着重要生物学信息,却长期被忽视。
scRNA-seq数据中普遍存在的双峰表达模式,即基因在单个细胞中呈高表达或完全未检测状态,提示仅关注均值可能丢失关键生物学线索。例如,即使某基因在组织中的总体表达水平相同,其表达细胞的占比变化也可能反映重要的生理状态转变。更有趣的是,研究表明将单细胞计数数据二值化后仍能准确捕捉生物变异,甚至比原始计数更具鲁棒性。
尽管MAST等早期方法尝试通过跨栏模型(hurdle model)同时分析检测频率和表达水平,但其单细胞层面的分析策略存在明显缺陷:难以应对现代scRNA-seq实验的海量细胞数据;对基于液滴测序协议产生的高稀疏数据推断无效;且未充分考虑样本内细胞间的相关性结构。伪批量(pseudobulk)策略通过将同一样本的细胞计数聚合,能有效解决样本内相关性难题,并在DE分析中表现优异,但尚未系统应用于差异检测(DD)分析。
为填补这一空白,Gilis等人于《BMC Genomics》发表研究,系统开发并评估了八种DD分析工作流程,提出将DD与DE分析整合的阶段性检验策略,并通过模拟研究和实际案例验证其价值。
研究方法上,团队首先将scRNA-seq计数矩阵二值化(非零值设为1),再按样本-细胞类型组合伪批量聚合,获得每个样本中表达某基因的细胞数。随后评估四类二项广义线性模型(GLM)(bGLM、qbGLM、qbGLM_offset、qbGLM_offset_squeeze)和四类edgeR模型(edgeR_NB、edgeR_QP、edgeR_NB_optim、edgeR_QP_optim)。关键创新包括:1)引入细胞检测率(CDR)作为标准化偏移量;2)采用经验贝叶斯收缩分散度估计;3)优化基因过滤策略(剔除在90%以上细胞中表达的基因)。最终通过阶段性检验框架整合DD与DE结果,并应用于COVID-19(5种B细胞亚型,健康vs不同严重程度患者)和系统性红斑狼疮(3种细胞类型,健康vs患者)的多样本数据集。
性能评估结果显示:基于edgeR的模型(尤其是edgeR_NB_optim)在I型错误控制和检测效能上均优于GLM模型。零模拟中,传统二项GLM和MAST存在I型错误膨胀问题,而伪批量策略能有效控制错误率。随着样本量增加(从5vs5至22vs22),所有方法的错误控制更稳定,统计效能显著提升。
COVID-19案例研究深入揭示:在 naive B细胞中度患者对比中,DD与DE分析呈现互补模式:基因TRBC2同时存在DE与DD信号;PPIB仅显示DE变化(与COVID病毒细胞进入相关);而线粒体ATP合成酶亚基ATP5F1A仅显示DD信号——尽管总体表达无差异,但患者细胞中表达该基因的细胞比例显著降低,提示细胞功能受损。阶段性检验的omnibus检验能识别更多差异基因(表1比较18中omnibus:2345 vs DE:2437 vs DD:1417),且基因集富集分析(GSEA)显示DD结果特异性富集病毒应答等通路,而DE结果富集翻译相关通路(表2),证实两类分析提供不同生物学见解。
系统性红斑狼疮案例进一步验证:在T4 naive、记忆B细胞和非经典髓系细胞中,DD与DE分析结果高度一致但非完全重叠(表3),阶段性检验仍能额外发现显著基因。这表明即使信号重叠,整合分析仍能提升检测灵敏度。
研究结论强调,DD分析作为DE分析的有效补充,能揭示传统方法无法检测的生物学现象。团队推荐的edgeR_NB_optim工作流程兼具计算效率与统计效能,而阶段性检验框架在控制整体错误率的同时,允许研究者同时考察omnibus假设与具体DD/DE假设。该工作流程已整合至Bioconductor软件包muscat中,为单细胞转录组学提供新的分析维度。
这项研究的核心意义在于突破传统DE分析仅关注均值变化的局限,首次系统证实检测频率差异的独立生物学价值。通过严谨的基准测试和实际案例,不仅提供经过验证的分析工具,更拓宽了对单细胞转录组数据信息的理解,为精准解析细胞异质性奠定方法学基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号