单细胞RNA测序高维数据的组合数据分析新方法(CoDA-hd):优势与应用前景
《Journal of Translational Medicine》:Compositional data modeling of high-dimensional single cell RNA-seq (CoDA-hd): its advantages over commonly used normalization approaches
【字体:
大
中
小
】
时间:2025年10月22日
来源:Journal of Translational Medicine 7.5
编辑推荐:
本研究针对单细胞RNA测序(scRNA-seq)数据标准化方法的局限性,开发了高维组合数据分析框架(CoDA-hd)。研究人员通过创新的计数添加方案(SGM)解决了稀疏数据的零值处理难题,证明中心对数比(CLR)转换在降维可视化、聚类分析和轨迹推断中优于传统方法,为单细胞数据分析提供了更稳健的标准化方案。
在当今生命科学研究领域,单细胞RNA测序(scRNA-seq)技术已经成为探索细胞异质性和转录组特征的重要工具。然而,这种技术产生的数据具有典型的高维度和稀疏性特点,其中包含超过20,000个基因的表达信息,且存在大量零值(称为"dropout"现象)。传统的数据标准化方法,如对数标准化(LogNorm),在处理这类数据时可能产生误导性结果,尤其是在轨迹推断分析中可能生成生物学上不合理的细胞分化路径。
组合数据分析(CoDA)是一种新兴的统计框架,虽然已成功应用于微生物组、批量RNA测序和单细胞RNA测序中的细胞类型比例分析,但这些应用通常只涉及50-200个组分。将CoDA应用于具有超过20,000个组分(蛋白质编码基因)的单细胞RNA测序数据面临着巨大挑战,主要障碍包括数据的高维性、稀疏性以及零值处理问题。
为了解决这些挑战,黄敬汉等研究人员在《Journal of Translational Medicine》上发表了创新性研究,探索了CoDA在高维单细胞RNA测序数据中的应用(CoDA-hd)。该研究系统评估了各种对数比(LR)转换方法在处理原始计数矩阵中的表现,并开发了专门针对高维稀疏数据的创新解决方案。
研究团队收集了29个真实数据集(包括15个"金标准"轨迹数据集)和4个模拟数据集(使用Splatter和SplatPop生成),通过质量控制和多种预处理流程进行比较分析。关键技术包括:开发了新的计数添加方案(如SGM方法)处理零值;实现了从对数标准化数据到CoDA对数比表示的转换;采用部分奇异值分解(partial SVD)替代传统的对数比分析(LRA)进行降维;使用多种评估指标(熵纯度、调整兰德指数等)系统比较不同方法在聚类、轨迹推断等下游任务中的表现。
通过四个真实数据集和四个模拟数据集的定量评估,研究发现CoDA对数比转换,特别是使用SGM计数添加方案的CLR转换,在所有聚类指标(Hacc、Hpur、ARI、NMI)上均优于传统标准化方法。重要的是,研究证明了对数标准化数据可以直接转换为CoDA对数比表示(标记为LogNorm-CLR),这为利用公共数据库中已标准化的数据提供了便利。
在PCA和UMAP可视化中,CLR(SGM)和CLR(LogNorm/S10000)产生了更离散且生物学上更合理的细胞类型聚类。与单独使用LogNorm相比,使用CLR后单核细胞等细胞类型实现了更好的分离。值得注意的是,CoDA揭示的某些细胞类型关系在生物学上比对数标准化的结果更为合理。
通过模拟降解细胞(10%的H1975细胞复制并添加零值)的实验,研究发现CoDA对数比转换能够更好地区分低质量的零值膨胀细胞。CLR和ILR能够清晰地将这些人工降解的细胞聚类为独立的低质量群组,而对数标准化则将这些降解细胞分散在不同的细胞类型聚类中,可能错误地将其表示为过渡状态。
在22个具有已知时间标签的真实金标准数据集上评估轨迹推断性能时,CLR在Slingshot分析中的斯皮尔曼相关系数(SCC)和伪时间排序得分(POS)均显示出统计学显著改善。对于具有多分支的数据集,与对数标准化相比,CLR降低了错误轨迹率并减少了错误的细胞类型比例。
在生物标志物识别评估中,当关注那些在对数标准化数据上表现中等(AUC≤0.75)的差异表达基因(DEGs)时,四种CoDA转换(SGM-HKGLR、SGM-CLR、ALRA-CLR、MAGIC-CLR)显著提高了AUC值。同时,CoDA对数比转换保持了与常规标准化相似的特异性,而插补方法则增加了假阳性率。
虽然CoDA需要比对数标准化更多的计算资源,但研究开发的"CLR+部分SVD"方法比标准的LRA实现方式快得多,即使对于大型数据集也是可行的。最大的数据矩阵(10,000×50,000)可以在几分钟内完成CLR转换,使用20GB内存,这在服务器和台式计算机上都是典型的设置。
本研究成功地将完整的CoDA工作流程应用于单细胞RNA测序数据分析,从数据闭合、对数比转换到降维,这些程序与常用的单细胞RNA测序下游分析算法兼容。两个关键创新是:(1)专门为单细胞RNA测序开发的SGM计数添加方案;(2)高维数据的CoDA分析。
CoDA的一个关键优势是其能够更好地处理低质量、零值膨胀的细胞。通过将降解细胞正确识别为独立的聚类而不是过渡状态,CoDA有助于防止将技术伪迹误解为生物现象。这在轨迹分析中尤为重要,因为降解细胞是产生伪迹结果和结论的主要原因。
0.6 is used as cutoff for useful biomarkers, CoDA and imputation methods may enhance identification of biomarkers in real dataset(C) and simulation dataset(D).EHowever,in the simulation dataset with ground-truth,false positive biomarkers are only under control by Raw-LogNorm(as baseline),Raw-SCT and SGM-CLR.30% to 50% of the selected non-DEGs are identified as potential biomarkers by ALRA or MAGIC(even with CLR transformation)'>
CoDA-hd对于常规应用是实用的。尽管CoDA需要比对数标准化更多的计算资源,但在下游分析中的好处证明了这种权衡是值得的。此外,研究团队开发的快速截断SVD降维实现使CoDA即使对于大型数据集也是可行的。
这项研究的重要意义在于首次系统地将CoDA框架成功应用于高维单细胞RNA测序数据分析,解决了长期被忽视的单细胞RNA测序数据的组合性质问题。通过开发理论上合理且实用的方法,研究人员在细胞聚类和可视化、低质量细胞处理、轨迹推断和生物标志物识别等方面获得了显著优势,为单细胞基因组学领域提供了更稳健、更可靠的分析工具。
研究团队还开发了R软件包"CoDAhd",用于对高维单细胞RNA测序数据进行CoDA对数比转换,代码和示例数据集已在GitHub上公开,这将促进CoDA方法在科研社区的广泛应用。该研究展示的方法也有潜力应用于其他高维稀疏矩阵的大数据分析,如商业分析等领域。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号