编辑推荐:
在单细胞组学和空间组学研究中,聚类分析意义重大。为挖掘空间组学数据潜在结构,研究人员开展 “SpatialLeiden: spatially aware Leiden clustering” 研究。结果显示,SpatialLeiden 算法性能卓越,与现有空间聚类算法相比优势明显,为空间组学分析提供新方法。
在生命科学的微观世界里,单细胞转录组学就像一把神奇的钥匙,开启了人们认识细胞异质性的大门。它能够在单个细胞层面测量基因表达,让科学家们看到每个细胞独特的 “分子指纹”。然而,这海量的高维数据却如同一片迷雾,想要从中提取出有意义的生物学信息并非易事。传统的聚类方法在处理这些数据时,往往像是在黑暗中摸索,难以准确地揭示细胞之间的内在联系和组织的空间结构。
与此同时,空间组学技术的出现,更是让情况变得复杂起来。它虽然赋予了研究人员在空间层面绘制基因表达图谱的能力,但也带来了新的挑战。如何将空间信息与基因表达数据完美融合,准确地识别出空间域(spatial domains),成为了摆在科学家面前的一道难题。在这样的背景下,来自柏林健康研究所(Berlin Institute of Health at Charité – Universit?tsmedizin Berlin)、柏林自由大学(Freie Universit?t Berlin)和海德堡大学医院(Heidelberg University Hospital)等机构的研究人员,决心攻克这一难关,开展了关于 “SpatialLeiden: spatially aware Leiden clustering” 的研究。
他们的研究成果发表在《Genome Biology》上,为空间组学研究带来了新的曙光。研究人员通过一系列巧妙的设计,成功地将莱顿聚类算法(Leiden clustering)改造成了具有空间感知能力的 SpatialLeiden 算法。这一算法能够更好地整合空间信息和基因表达数据,在空间域识别方面表现出色。
在研究过程中,研究人员主要运用了以下几种关键技术方法:
首先是数据处理,利用 Python(v3.10.14)、Scanpy(v1.10.1)和 Squidpy(v1.4.1)对数据进行分析。其次是空间邻域图的生成,根据不同技术,采用不同方式定义每个细胞的邻居。对于规则网格数据集,使用 squidpy.gr.spatial_neighbors 函数设置参数来确定邻居;对于其他数据集,则通过 Delaunay 三角剖分或 k - 最近邻算法来定义。此外,还涉及高变基因(HVGs)和空间可变基因(SVGs)的检测、MULTISPATI - PCA 进行空间感知降维,以及构建潜在邻域图等技术。
下面来详细看看研究结果:
- 数据处理和建模步骤:研究人员回顾了莱顿聚类如何通过选择空间可变基因(SVGs)而非高变基因(HVGs)、利用 MULTISPATI - PCA(msPCA)进行空间感知降维,以及在莱顿多重聚类(SpatialLeiden)中明确建模空间嵌入等步骤来利用空间信息。通过对人类背外侧前额叶皮层(DLPFC)的 10x Visium 空间转录组数据集的分析,展示了这些方法的应用。
- 性能评估:使用调整兰德指数(ARI)和归一化互信息(NMI)分数对不同聚类策略的性能进行定量评估。结果显示,使用空间感知降维(msPCA)和 SpatialLeiden 相较于非空间感知的莱顿聚类,性能有显著提升,能够更好地反映新皮质分层模式。而且,SpatialLeiden 的性能与 SpaGCN 和 BayesSpace 相当,但处理时间更短。在最近的一项基准研究中,SpatialLeiden 在 15 种工具中排名第 5。
- 参数影响:如同其他多模态聚类方法一样,SpatialLeiden 也需要仔细考虑一些参数,如应用于每种模态的分辨率以及每种模态的权重。研究发现,改变邻居结构和大小的效果与改变空间层权重的效果相似。
- 增强域识别:通过使用 Banksy 和 SpiceMix 生成空间信息潜在空间,并改变空间信息在潜在空间中的影响,研究发现 SpatialLeiden 能够进一步增强域识别,尤其在空间信息对联合潜在空间贡献较少时效果更明显。
- 跨技术、组织和邻域模型的适用性:分析多个数据集(包括 Stereo - Seq 小鼠胚胎、BaristaSeq 小鼠大脑初级皮层等)后发现,SpatialLeiden 在所有数据集上均表现出色,且对于基于成像的空间转录组学方法,使用 10 k - 最近邻建模空间邻域通常比 Delaunay 三角剖分效果更好。
在研究结论和讨论部分,研究人员指出莱顿算法的参考实现确实可以用作空间感知聚类算法。后续在比较空间感知聚类算法时,应明确与非空间实现的莱顿算法进行比较,避免错误分类。SpatialLeiden 算法不仅易于参数化,考虑了基因和空间模态建模的关键因素,而且由于其与 Louvain 聚类算法的相似性,该方法可直接应用于 Louvain 社区检测,并且将额外的图层用于空间邻域的方法也有潜力转移到其他基于图的聚类方法中。研究人员相信,凭借其效率、简单性以及易于集成到现有分析流程的优势,SpatialLeiden 将成为空间数据聚类分析的首选方法。这一研究成果为空间组学领域提供了一种强大的分析工具,有望推动该领域的进一步发展,帮助科学家们更好地理解组织的空间结构和细胞间的相互作用机制,为相关疾病的研究和治疗提供更深入的理论基础。