《Nature Communications》:CellScope: high-performance cell atlas workflow with tree-structured representation
编辑推荐:
单细胞测序技术虽能精细解析细胞异质性,但现有分析框架(如Seurat、Scanpy)在基因选择、层次聚类和可视化方面存在局限。本研究提出CellScope,通过两阶段流形拟合消除噪音、基于图结构的聚合聚类构建多层次细胞图谱,并结合UMAP与层次聚类实现树状可视化。在36个数据集上的测试表明,其聚类精度(ARI=0.88)、计算效率及稀有细胞识别能力均显著优于现有方法,尤其在COVID-19患者免疫细胞状态分析中揭示了传统方法难以发现的疾病相关基因表达模式,为细胞功能研究和疾病机制解析提供了新工具。
在生命科学领域,单细胞RNA测序(scRNA-seq)技术如同一把高精度显微镜,让科学家能够逐个观察细胞间的细微差异,从而绘制出详尽的细胞图谱。这些图谱不仅揭示了组织器官中细胞类型的多样性,还为理解发育过程、疾病机制提供了宝贵资源。然而,随着数据量的爆炸式增长,传统分析方法逐渐暴露出诸多局限。例如,常用的Seurat和Scanpy等工具在基因选择时往往依赖简单的方差筛选,难以区分真正的生物信号与技术噪音;其聚类算法多采用扁平化结构,无法捕捉细胞类型间的层次关系;可视化方法如UMAP和t-SNE虽能展现细胞分布,却难以同时呈现多层次的细胞谱系结构。这些限制使得研究人员在解析复杂生物系统时,可能错过关键细胞亚群或动态变化过程。
为了突破这些技术瓶颈,新加坡国立大学统计与数据科学系姚志刚团队与加州大学洛杉矶分校、弗雷德哈钦森癌症研究中心等机构合作,在《Nature Communications》上发表了题为“CellScope: high-performance cell atlas workflow with tree-structured representation”的研究论文。该研究开发了一种名为CellScope的新型计算框架,通过创新的流形拟合(manifold fitting)技术和树状结构表征,实现了高性能的细胞图谱构建与分析。
CellScope的核心技术方法包括:1)两阶段流形拟合——首先通过主成分分析(PCA)和基于密度峰值的“流形种子”识别技术区分信号基因与管家基因噪音,再利用投影估计法降低技术噪音;2)基于图结构的聚合聚类(graph-based agglomerative clustering)——通过UMAP构建细胞相似性图,采用平均链接法进行层次聚类;3)树状可视化——整合UMAP与层次聚类结果,生成多分辨率细胞关系树;4)动态分子身份系统——通过Wasserstein距离量化基因表达差异,将基因分为管家基因(HG)、中度细胞类型相关基因(MCTRG)和强细胞类型相关基因(SCTRG)。研究使用了36个公开数据集进行验证,涵盖人、鼠多个组织器官,样本量从90到265,767个细胞。
CellScope在细胞聚类和基因选择方面表现出卓越性能
通过对36个单细胞RNA测序数据集的系统评估,CellScope在调整兰德指数(ARI)、聚类准确率(ACC)等多项指标上均显著优于Seurat、Scanpy等五种对比方法。其平均ARI达到0.88,且在32个数据集中排名第一。特别值得注意的是,CellScope的基因选择策略能够更有效地识别具有生物学意义的标记基因。在人类胰腺细胞数据集分析中,CellScope仅用500个基因就实现了比Seurat(使用2000个基因)更清晰的细胞类型分离,其中30%的CellScope特有基因表现出显著的细胞类型间差异,而Seurat特有基因中仅有3%达到同等区分度。
CellScope增强相似细胞类型区分、稀有细胞检测和多层次聚类能力
在复杂组织如人脑和小鼠胰腺数据集中,CellScope展现出独特优势。例如,在NHGRI人脑数据中,传统方法只能区分小脑与其他脑区,而CellScope成功分离出基底节、大脑皮层等多个区域,且对稀有细胞类型(如仅占1.4%的胰腺星状细胞)的检测灵敏度显著提高。通过系统量化可视化轮廓系数(Silhouette Score),证明CellScope在稀有细胞(<5%)和非稀有细胞识别中均优于Scanpy(p<10-5)。此外,其多层次聚类功能在小鼠腰椎感觉神经元数据中成功解析了酪氨酸羟化酶(TH)神经元、神经纤维(NF)神经元等8个亚型,揭示了传统方法难以捕捉的细胞分化轨迹。
CellScope的树状可视化精炼脑细胞图谱表征
应用CellScope分析人脑中脑红核数据集(Siletti-1)时,研究团队不仅重现了已注释的9个细胞类别,还发现少突胶质细胞(OL)可进一步分为两个功能迥异的亚群:高表达RBFOX1的OL1细胞(541个)处于终末分化状态,而高表达OPALIN的OL2细胞(1592个)正处于活跃髓鞘形成阶段。通过构建三层聚类系统(Cluster-SubCluster-SubSubCluster),CellScope首次建立了基因的动态“分子身份”分类体系。分析显示,随着聚类分辨率提高,SCTRG和MCTRG数量逐渐减少而HG增加,反映了基因在不同细胞分化阶段的功能转换。如RBFOX1在SubSubCluster层作为OL亚型标记基因,而PRANCR仅在Cluster层显示功能特异性,这种动态分类超越了传统“标记基因”的二元划分。
CellScope提升疾病-对照细胞图谱分析能力
在COVID-19外周血单核细胞(PBMC)分析中,CellScope清晰分离了经典单核细胞、非经典单核细胞和常规树突状细胞,并发现与疾病严重程度相关的8个关键基因。其中IFIT1、OAS2等7个基因在重症患者中显著上调,主要富集于病毒识别、干扰素应答等通路;而HLA-DRB5在健康个体中高表达,提示SARS-CoV-2可能通过下调抗原呈递机制实现免疫逃逸。这一发现凸显了单核-树突状细胞系统在抗病毒免疫中的核心作用,为理解COVID-19病理机制提供了新视角。
CellScope展现算法可解释性与鲁棒性
理论分析表明,CellScope的流形种子选择策略与细胞真实类中心距离呈强负相关(Zeisel数据集),证实了其密度-距离度量标准的生物学合理性。在参数敏感性测试中,CellScope在PCA维度(约100维)、基因数量(约500个)等关键参数范围内保持稳定性能。消融实验进一步验证了各模块必要性:归一化处理提升ARI约0.09,PCA预处理提高0.16,流形拟合在31/36数据集中提升聚类效果,图聚类在33/36数据集中优于传统距离聚类。
该研究通过流形学习理论框架,解决了单细胞分析中基因选择偏差、可视化扁平化和生物学解释性弱三大核心挑战。CellScope不仅显著提升了细胞聚类精度和计算效率,其创新的树状可视化与动态分子身份系统更提供了多尺度解析细胞异质性的新范式。特别是在脑细胞亚型鉴定和COVID-19免疫应答分析中的突破,彰显了其在复杂生物系统和疾病研究中的应用潜力。随着空间转录组学和多组学整合时代的到来,这种兼具理论严谨性和实用性的分析工具有望推动单细胞研究从细胞类型鉴定向功能表征的范式转变。