
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ScEnsemble:用于单细胞RNA测序的加权超图集成聚类方法
《BMC Bioinformatics》:ScEnsemble: weighted hypergraph ensemble clustering for single-cell RNA sequencing
【字体: 大 中 小 】 时间:2026年06月12日 来源:BMC Bioinformatics 3.3
编辑推荐:
摘要背景单细胞RNA测序能够详细分析细胞异质性,而聚类是识别不同细胞群体的关键步骤。然而,没有一种聚类算法在各种数据集中都能始终表现出色,这给细胞群体的准确识别带来了不确定性。现有的集成方法要么对所有算法一视同仁,要么采用简单的过滤策略,未能考虑到不同数据集之间解决方案质量的差异
单细胞RNA测序能够详细分析细胞异质性,而聚类是识别不同细胞群体的关键步骤。然而,没有一种聚类算法在各种数据集中都能始终表现出色,这给细胞群体的准确识别带来了不确定性。现有的集成方法要么对所有算法一视同仁,要么采用简单的过滤策略,未能考虑到不同数据集之间解决方案质量的差异。
我们提出了ScEnsemble,这是一种基于质量加权的超图集成聚类框架,它通过多种基础算法进行集成。ScEnsemble构建了一个超图,其中边代表聚类的共同分配,并根据内部验证指标(包括轮廓系数、Calinski-Harabasz指数、Davies-Bouldin指数和Dunn指数)进行加权。多种共识算法对加权超图进行划分以生成最终聚类,包括使用层次聚类和社区检测方法的CSPA变体、采用多种共识策略的MCLA以及超图谱聚类。在五个scRNA-seq数据集上的基准测试表明,在25个指标-数据集组合中,最佳集成配置在23个组合中达到了或超过了最佳单一算法的性能(92%)。基于质量的加权在25个组合中的21个组合中进一步提升了性能(84%)。在乳腺癌肿瘤微环境数据集上的生物学验证表明,ScEnsemble生成的聚类与已知细胞类型相符,这一点通过独立的基因集评分得到了证实。
ScEnsemble为scRNA-seq聚类提供了一种原则性的解决方案,它利用了算法的多样性,而不是强制选择单一方法。该框架使研究人员能够根据他们的分析优先级来优化数学聚类质量或生物学可解释性,从而解决了单细胞数据分析中的一个根本性挑战。
单细胞RNA测序能够详细分析细胞异质性,而聚类是识别不同细胞群体的关键步骤。然而,没有一种聚类算法在各种数据集中都能始终表现出色,这给细胞群体的准确识别带来了不确定性。现有的集成方法要么对所有算法一视同仁,要么采用简单的过滤策略,未能考虑到不同数据集之间解决方案质量的差异。
我们提出了ScEnsemble,这是一种基于质量加权的超图集成聚类框架,它通过多种基础算法进行集成。ScEnsemble构建了一个超图,其中边代表聚类的共同分配,并根据内部验证指标(包括轮廓系数、Calinski-Harabasz指数、Davies-Bouldin指数和Dunn指数)进行加权。多种共识算法对加权超图进行划分以生成最终聚类,包括使用层次聚类和社区检测方法的CSPA变体、采用多种共识策略的MCLA以及超图谱聚类。在五个scRNA-seq数据集上的基准测试表明,在25个指标-数据集组合中,最佳集成配置在23个组合中达到了或超过了最佳单一算法的性能(92%)。基于质量的加权在25个组合中的21个组合中进一步提升了性能(84%)。在乳腺癌肿瘤微环境数据集上的生物学验证表明,ScEnsemble生成的聚类与已知细胞类型相符,这一点通过独立的基因集评分得到了证实。
ScEnsemble为scRNA-seq聚类提供了一种原则性的解决方案,它利用了算法的多样性,而不是强制选择单一方法。该框架使研究人员能够根据他们的分析优先级来优化数学聚类质量或生物学可解释性,从而解决了单细胞数据分析中的一个根本性挑战。
生物通微信公众号