
-
生物通官微
陪你抓住生命科技
跳动的脉搏
单细胞RNA测序与批量转录组解卷积中转录组大小校正算法的开发与应用
【字体: 大 中 小 】 时间:2025年02月02日 来源:Nature Communications
编辑推荐:
针对单细胞RNA测序(scRNA-seq)数据标准化和批量RNA-seq解卷积中因忽略转录组大小差异导致的基因表达偏差问题,Songjian Lu等开发了ReDeconv算法。该工具通过CLTS(基于线性化转录组大小的计数)标准化方法,有效校正了CP10K标准化导致的差异表达基因误识别,并整合表达方差信息提升了解卷积精度,尤其在稀有细胞类型分析中表现优异。研究为单细胞和批量转录组数据的整合分析提供了新标准,相关成果发表于《Nature Communications》。
在生命科学研究中,单细胞RNA测序(scRNA-seq)技术革命性地提升了我们对细胞异质性的认知,而批量RNA-seq则因其成本优势和临床样本兼容性仍不可替代。然而,两种技术的整合分析长期面临核心挑战:不同细胞类型的转录组大小(单个细胞内mRNA分子总数)存在显著差异,但现有scRNA-seq标准化方法(如CP10K)强制均一化处理,导致细胞类型间基因表达比较失真,进而影响差异表达基因(DEGs)识别和批量样本细胞组成解卷积的准确性。
针对这一瓶颈问题,研究人员开发了ReDeconv算法框架。该工具创新性地提出CLTS(Count based on Linearized Transcriptome Size)标准化方法,通过保留不同细胞类型间真实的转录组大小差异,同时消除技术批次效应,显著提升了scRNA-seq数据的生物学解释可靠性。研究团队通过跨物种(小鼠/人)、跨平台(10X Genomics/Illumina)和多组织(大脑/肿瘤/肺)数据验证,证实CLTS较传统CP10K标准化能更准确反映基因表达差异,尤其在神经元与星形胶质细胞的DEGs识别中,与空间转录组(CosMx)的吻合度从62.4%提升至86.7%。在批量RNA-seq解卷积应用中,ReDeconv通过同步解决基因长度效应(Type-II)和表达方差建模(Type-III)问题,对稀有细胞类型的比例预测误差降低50%以上,为肿瘤微环境(TME)研究等需要精确量化细胞组成的领域提供了新标准。
关键技术方法包括:1)基于Allen Institute小鼠/人脑单细胞图谱和肺癌scRNA-seq数据构建跨样本转录组大小线性校正模型;2)使用CosMx空间转录组作为金标准验证DEGs识别准确性;3)通过6种合成数据集(SYN Data A-F)和2种真实批量RNA-seq数据集(细胞系混合样本和PBMC分选样本)进行多维度基准测试;4)开发概率模型整合细胞类型特异性表达方差信息优化解卷积算法。
主要研究结果如下:
ReDeconv框架
提出三层次问题解决方案:Type-I(转录组大小差异)通过CLTS标准化校正,Type-II(基因长度效应)采用选择性TPM/RPKM标准化,Type-III(表达方差)通过稳定特征基因筛选优化。数学推导表明,CP10K标准化会使大转录组细胞类型的基因表达被压缩,小转录组细胞类型被放大,导致解卷积比例系统性偏差。
跨物种转录组大小保守性
分析55个小鼠样本和人类运动皮层数据发现,相同细胞类型的转录组大小在不同样本间呈强线性相关(R>0.95),且跨物种保守(小鼠L5神经元与人类L2/3神经元大小比例均为5:1)。技术批次效应表现为所有细胞转录组的等比例缩放,而CLTS能有效分离这种技术噪声与真实生物变异。
DEGs识别准确性提升
以Plcb1基因为例,CLTS标准化正确显示其在L5神经元的表达是星形胶质细胞的3.2倍,而CP10K标准化错误反转该比值至0.7倍。对107个CP10K特异性"下调基因"的验证显示,93.5%实际在CosMx数据中呈上调表达,证实CLTS可减少76%的假阳性DEGs。
合成数据解卷积测试
在SYN Data A(6种细胞等比例混合)中,ReDeconv预测比例与真实值偏差<0.5%,而BayesPrism对L5 ET神经元比例高估142.4%,MuSiC对星形胶质细胞比例低估87.1%。在非均匀混合的SYN Data E-F中,ReDeconv保持<5%的相对误差,显著优于其他方法(最大误差达210%)。
真实数据验证
在18个细胞系混合样本中,ReDeconv的预测与流式细胞计数结果的Pearson相关系数达0.99,对稀有细胞(占比<20%)的误差较次优方法降低60%。在PBMC分选样本中,能准确识别5种免疫细胞优势群体(准确率100%),而CIBERSORTx将NK细胞误判为CD8+ T细胞。
问题机制解析
通过控制变量实验证实:Type-I问题单独存在时,细胞比例预测误差与转录组大小正相关(R=0.89);Type-II问题会导致基因长度依赖性偏差;二者共存可能产生抵消效应。Type-III问题主要影响稀有细胞类型识别,ReDeconv通过方差建模使其预测稳定性提升3倍(F-test p<0.05)。
这项研究的意义在于:1)首次系统量化了转录组大小差异对scRNA-seq分析的全局影响,挑战了"均一化优先"的传统范式;2)CLTS标准化可作为Seurat/Scanpy等流程的补充模块,提升下游分析可靠性;3)ReDeconv为利用海量历史批量RNA-seq数据(如TCGA)开展单细胞水平再挖掘提供了可行方案。作者指出,未来可进一步探索CLTS在批次效应校正中的应用,并开发基于解卷积结果的表达谱反推功能。该成果为多组学整合时代下异质数据的可比性分析建立了新标准。
生物通微信公众号
知名企业招聘