
-
生物通官微
陪你抓住生命科技
跳动的脉搏
单细胞转录组与蛋白质组聚类算法的跨模态性能评估与整合策略研究
《Genome Biology》:Comparative benchmarking of single-cell clustering algorithms for transcriptomic and proteomic data
【字体: 大 中 小 】 时间:2025年09月04日 来源:Genome Biology 9.4
编辑推荐:
本研究针对单细胞多组学数据聚类算法在跨模态应用中的性能差异问题,系统评估了28种算法在10组配对转录组(scRNA-seq)和蛋白质组(scProteomics)数据上的表现。通过ARI/NMI等指标验证了scAIDE、scDCC和FlowSOM的优越性,揭示了HVGs筛选和细胞类型粒度对聚类的影响,并探索了7种特征整合方法对多组学聚类效果的提升。该研究为单细胞多模态数据分析提供了方法学选择和开发指导。
在生命科学领域,单细胞多组学技术的突破性进展正深刻改变着我们对细胞异质性的认知。然而,不同组学模态间数据分布、特征维度和质量差异给细胞聚类分析带来巨大挑战。尽管针对单细胞转录组(scRNA-seq)或蛋白质组(scProteomics)数据的聚类算法层出不穷,但这些方法在跨组学应用中的表现仍缺乏系统评估。这种知识空白不仅限制了方法选择,更阻碍了新算法的开发进程。
为填补这一空白,Yu-Hang Yin和Fang Wang领衔的研究团队在《Genome Biology》发表了开创性研究。该工作首次对28种计算算法(包括15种经典机器学习、6种社区检测和7种深度学习方法)进行了跨组学性能评估,测试数据集涵盖5种组织类型、50余种细胞类型和超过30万细胞。研究创新性地采用10组配对转录组-蛋白质组数据集(通过CITE-seq、ECCITE-seq等技术生成),确保不同组学数据来自相同细胞群体,为跨模态比较提供了理想基础。
关键技术方法包括:1)使用SPDB数据库和Seurat v3获取10组真实配对数据集;2)构建30组模拟数据集评估算法鲁棒性;3)应用7种最新整合方法(moETM、sciPENN等)融合多组学特征;4)采用ARI(调整兰德指数)、NMI(标准化互信息)等6项指标全面评估性能。
算法和数据集
研究精选的28种算法覆盖三大技术路线:经典机器学习(如SC3、CIDR)、社区检测(如Leiden、Louvain)和深度学习方法(如scDCC、scAIDE)。通过统一预处理流程(HVGs筛选、CLR标准化等),在保持原始生物学差异的前提下实现公平比较。
跨组学性能基准测试
结果显示:1)深度学习方法scDCC和scAIDE在双组学中均表现优异,FlowSOM则展现出最佳鲁棒性;2)转录组数据整体优势明显(倾向性得分>0.01),但蛋白质组在T细胞亚型识别等特定任务中更具优势;3)HVGs筛选可提升多数算法性能,但3000个HVGs后增益递减。
关键影响因素分析

实验证实:1)蛋白质组数据对噪声和规模变化更具稳定性,因其低维度和低稀疏性特性;2)在0.5%极低丰度稀有细胞检测中,scAIDE的F1-score达0.978,显著优于其他方法;3)社区检测类方法内存效率最高,而SHARP等经典算法时间效率最优。
多组学整合价值

通过7种整合方法发现:1)当蛋白质组数据本身表现优异时(如Data8),整合特征可产生协同效应;2)totalVI和moETM整合的特征使多数单组学算法性能提升;3)多组学整合能重构特征空间,更全面反映细胞状态。
这项研究为单细胞多模态分析建立了重要方法论框架:1)确立scDCC、scAIDE和FlowSOM作为跨组学聚类的首选方案;2)揭示蛋白质组数据在免疫细胞分型中的独特价值;3)证明多组学整合可突破单组学局限。这些发现不仅为当前研究提供工具选择指南,更启示未来算法开发应注重:1)模态特异性优化;2)稀有细胞检测能力;3)内存-时间效率平衡。随着空间多组学等新技术发展,该研究建立的评估体系将持续指导方法学创新,推动单细胞研究向更高精度迈进。