《Scientific Reports》:CiCLoDS: Joint cell clustering and gene selection for single-cell spatial transcriptomics
编辑推荐:
本研究针对空间转录组(ST)数据分析中特征选择与细胞聚类分离的瓶颈,提出联合优化框架CiCLoDS。该方法在用户限定基因数量(p)下同步实现细胞聚类与特征选择,在MERFISH小鼠肝脏(127万细胞)和Xenium人结肠等数据集上验证显示,其调整兰德指数(ARI)较PCA提升最高达0.36,与BayesSpace联用可将人DLPFC的平均ARI提升至0.50,为空间生物学提供了可解释的高效分析工具。
在生命科学领域,空间转录组学(Spatial Transcriptomics, ST)技术的突破性进展,使得研究人员能够在保留组织原始空间结构的前提下,精确绘制基因表达图谱。无论是基于测序的10x Genomics Visium平台,还是基于成像的MERFISH和Xenium等技术,都能够以前所未有的分辨率揭示组织中每个细胞的基因活动及其空间位置关系。然而,随着数据量的爆炸式增长——例如Vizgen MERFISH小鼠肝脏数据集包含127万个细胞——如何从海量的基因表达数据中提取有意义的生物学结构,成为当前面临的核心挑战。
下游分析通常需要解决两个关键问题:识别不同的细胞邻域(聚类)以及确定定义这些邻域的最小基因集合(特征选择)。传统计算方法大多将这两个任务分离处理,要么先进行特征选择再进行聚类,要么使用主成分分析(PCA)等降维方法。但这些方法存在明显局限:PCA优化的全局方差可能捕获的是技术噪音或细胞周期效应,而非真正的生物学差异;而专门的特征选择方法如geneBasis虽然能保留数据流形结构,但由于选择步骤与聚类目标脱节,所选特征未必对后续细胞分区最优。
深度学习方法的出现部分解决了这些问题,如scDeepCluster和scDCC通过联合学习非线性嵌入和聚类分配,提高了对稀疏计数数据的鲁棒性。然而,这些模型通常作为“黑箱”运作,不返回明确的、用户可控的基因面板,限制了其在面板设计和生物学解释中的应用。
正是在这样的背景下,研究人员在《Scientific Reports》上发表了题为“CiCLoDS: Joint cell clustering and gene selection for single-cell spatial transcriptomics”的研究论文,提出了一种名为CiCLoDS(Clustering in Critical & Low-Dimensional Subspace)的新型无监督框架,专门为空间转录组学设计,能够在严格的用户定义基因预算下联合优化聚类和特征选择。
关键技术方法
本研究开发了CiCLoDS这一数学框架,采用块坐标下降法交替优化聚类分区和特征集合。研究使用了三个主要数据集:Vizgen MERFISH小鼠肝脏数据集(127万细胞,347个基因)、10x Xenium人结肠数据集(2.3万细胞,约5000个基因)和人DLPFC(背外侧前额叶皮质)数据集。预处理包括文库大小归一化和特征尺度标准化。空间信息通过正弦-余弦位置编码融入模型,聚类性能通过调整兰德指数(ARI)、归一化互信息(NMI)和F1-score等指标评估。
研究结果
CiCLoDS实现竞争性聚类性能
在肝小叶分区任务中,CiCLoDS与geneBasis、scDCC和PCA等方法比较显示,在设置聚类数k=10、特征数p=64的条件下,CiCLoDS在peri-central区域的ARI较PCA提升达0.36,在peri-portal区域提升0.16。空间分区图谱显示CiCLoDS产生高度连贯的小叶模式,边界清晰,散点或错分图块显著少于PCA和geneBasis。
CiCLoDS识别生物学有效的肝细胞群体
当特征空间扩大至p=128时,CiCLoDS成功识别出与已知peri-portal和peri-central参考群体高度对齐的集群,分别对应Cluster 7(85.4%对齐)和Cluster 6(84.9%对齐),且未使用关键生物标志物Axin2的先验知识。
血液血管识别的比较分析
CiCLoDS在加入位置编码的空间数据后,血液血管识别的F1-score达92.8%,而单纯使用基因表达数据时无法识别血管结构。相比之下,scDCC仅凭基因表达数据就达到96.4%的F1-score,而PCA在修改策略(选择前20个主成分中最具代表性的64个基因)后达到91.9%。
GO和KEGG通路富集分析
无空间信息的CiCLoDS基因集富集于肝细胞代谢程序,如脂质和碳水化合物代谢;而包含空间坐标的基因集则富集于膜/粘附和血管相关术语,如“质膜外侧”和“细胞-细胞粘附”,表明从肝小叶分区向血管特征解析的转变。
与竞争方法的基因选择比较
在特征选择稳定性方面,随着选择基因数p增加,与PCA的重叠率提高。在结构保持与信息效率评估中,CiCLoDS在p≥64时在kNN-overlap AUC上超越所有基线方法(p=128时达0.89),同时在冗余度(1-μ|r|)上稳步改善。
在人DLPFC上的泛化和初始化协同作用评估
CiCLoDS作为独立工具在三个不同供体样本上平均ARI为0.40,超过BayesCafe(0.32)。当作为BayesSpace的初始化策略(混合方法)时,平均ARI提升至0.50,有效缓解了局部极小值问题。
稳健性
通过Jaccard指数评估特征选择稳定性,结果显示随着p值增大,稳定性提高,特别是在p≥64时,小鼠肝脏数据集的Jaccard指数超过0.85。
模型效率
CiCLoDS在20次迭代内收敛,在标准硬件上几分钟内完成分析,展示了良好的可扩展性。
研究结论与意义
CiCLoDS最好被理解为一个通用的、与PCA相邻的模型,用于同步进行表示学习、特征选择和聚类。其将简单性、速度和可解释性相结合,使其成为空间分析的多功能基础:既可以作为有竞争力的独立工具,也可以作为复杂概率框架的协同稳定器。
该研究的核心优势在于其数学框架的通用性。与PCA类似,CiCLoDS假设观测值集中在低维结构附近,并寻求简洁的表示。但与PCA不同,CiCLoDS在单一目标中融入了联合稀疏性和聚类。这种耦合避免了顺序“先选择后聚类”或“先聚类后选择”程序中的脱节问题,产生同时紧凑且具有区分性的表示。
当空间信息缺失时,模型简化为学习捕获主要生物变异(如肝脏中的肝小叶分区)的低维稀疏子空间;当空间坐标可用时,通过将位置编码附加到表达特征,引导同一目标朝向与组织架构一致的结构,而无需改变优化本身。
在人体DLPFC数据上的基准测试进一步阐明了CiCLoDS在空间分析生态系统中的双重性质:既有竞争性的独立功能,又有协同增效作用。作为独立工具,CiCLoDS匹配或超过了专门概率模型的性能,表明严格的线性目标可以捕获复杂空间域,而无需完整概率推断的计算开销。同时,它作为确定性“热启动”模块协同工作,通过提供稳定、空间相干的初始化,缓解了概率框架中常见的对局部极小值的敏感性。
该 formulations 的第二个优点是稳定性和可扩展性。尽管联合优化是非凸的,但问题分解为允许高效精确解的块状子问题,因此方法在标准硬件上快速收敛。诱导的稀疏性控制方差并减少冗余,从而改进下游可解释性(如GO/KEGG分析),而无需过多调参。
总的来说,CiCLoDS通过提供通向解剖特异性的清晰路径——无论是通过直接分析还是作为稳健初始化——为高维生物数据中的结构发现提供了可扩展的默认选择。这种方法特别适用于需要可解释特征面板的实际应用场景,如靶向面板设计和临床转化研究。