编辑推荐:
为解决从空间组学数据准确识别和表征细胞生态位的难题,浙江大学的研究人员开展 scNiche 计算框架的研究。结果显示,该框架性能卓越。推荐阅读,助您紧跟前沿,深入了解细胞微环境研究的创新进展。
浙江大学药学院(College of Pharmaceutical Sciences, Zhejiang University)的研究人员在《Nature Communications》期刊上发表了题为 “Identification and characterization of cell niches in tissue from spatial omics data at single-cell resolution” 的论文。该论文在生命科学和医学健康领域具有重要意义,它为深入理解细胞微环境(细胞生态位,cell niche)与各种生物过程的关系,以及疾病的发生、发展机制提供了新的视角和有力工具,有望推动相关领域的研究进展,为疾病的诊断和治疗开辟新的道路。
一、研究概述
在本研究中,研究人员提出了一种名为 scNiche 的计算框架,它能够从单细胞分辨率的空间组学数据中识别和表征细胞生态位。通过模拟和生物数据集的测试,scNiche 展现出了卓越的性能,优于其他现有方法。研究人员还将 scNiche 应用于多种组织的空间组学数据,包括人类三阴性乳腺癌(triple-negative breast cancer,TNBC)和小鼠肝脏数据,成功揭示了患者特异性和疾病特异性的细胞生态位,进一步加深了人们对细胞微环境的理解。
二、研究背景
细胞生态位(也称为细胞微环境或空间域),是指细胞周围的局部环境或群落,在维持组织稳态和影响疾病进展等诸多生物学过程中起着关键作用。近年来,空间组学技术取得了显著进展,能够在单细胞分辨率下提供分子图谱,这使得在组织环境中系统地探索细胞状态、功能和相互作用成为可能。然而,尽管这些技术生成了大量的空间图谱,但准确解读这些数据中潜在的细胞生态位信息仍然是一个巨大的挑战。
为了应对这一挑战,许多计算方法应运而生。早期的方法如 HMRF、BayesSpace 和 DR-SC 等,利用 Potts 模型促使物理位置相近的细胞具有相同的标签,但这种方法假设细胞生态位是基因表达均一的区域,无法准确捕捉同一生态位内不同细胞类型的基因表达异质性。后来的 BASS 方法通过引入额外的层次建模结构,对不同细胞类型的异质性基因表达进行明确建模,提高了对空间组学数据的建模能力。SCGP 方法则通过分别计算细胞间的空间边缘和特征边缘来构建空间细胞图,以便利用传统的图社区检测算法识别细胞生态位。此外,还有一些方法,如 UTAG、CellCharter、BANKSY 等,通过不同方式将细胞自身及其邻居的分子特征相结合,生成更具代表性的细胞生态位特征。深度学习方法如 SpaGCN、STAGATE、GraphST 和 SpaceFlow 等,则借助图神经网络学习更好的潜在特征。针对空间蛋白质组学数据,也有 CytoCommunity 和 Spatial-LDA 等方法,不过这些方法依赖于注释良好的细胞类型信息,并且仅利用细胞的邻居组成特征来识别细胞生态位,可能无法揭示位于空间特定区域的一些生态位,如肿瘤 - 免疫界面。总体而言,现有方法在特征组合的固定架构设计上存在局限性,并且大多在小数据集上进行演示,难以扩展到包含数十或数百个组织切片的大型数据集并同时识别保守或特异性的细胞生态位。
三、研究方法
scNiche 旨在利用和整合细胞自身及其微环境的多视图特征来识别细胞生态位。默认情况下,scNiche 以单细胞空间组学数据为输入,在预定义的邻域范围内提取每个细胞的三视图特征,即细胞的分子图谱、其邻域的分子图谱以及邻域的细胞组成。在处理包含多个组织切片的空间转录组数据集时,通常需要对前两个视图的特征进行降维和批次校正,以平衡不同视图的维度并消除潜在的批次效应。此外,除了默认的三个视图,还可以方便地添加或替换其他视图的特征,如细胞的组织学信息或低分辨率空间转录组数据中点的反卷积细胞组成,从而更灵活地探索用于生态位建模的细胞多视图特征的最佳组合。
随后,scNiche 应用多个图自动编码器(M-GAE)与图融合网络(GFN)相结合的神经网络架构,将细胞的多视图特征整合为一个联合表示(z)。M-GAE 模型用于编码多视图数据的互补信息,GFN 则用于捕捉不同视图图之间的关系并生成包含所有视图全局节点关系的共识图,该共识图再输入回 M-GAE 模型。scNiche 还应用了多视图互信息最大化(MMIM)模块,通过增强任何视图中相邻样本表示之间的相似性,引导联合表示(z)更有利于聚类。训练过程通过最小化由 M-GAE 重建损失、图重建损失和互信息损失组成的组合损失函数来指导。此外,研究人员开发了一种批训练策略,使 scNiche 能够高效处理大型数据集。模型训练后,可以使用 k-means 或 Leiden 等无监督聚类算法对学习到的联合表示(z)进行聚类,以识别细胞生态位。最后,scNiche 还实现了一个集成的下游分析框架,用于对识别出的细胞生态位进行全面表征。
四、研究结果
- 多视图特征融合提高细胞生态位识别准确性:研究人员首先使用 scCube 生成的模拟数据集评估 scNiche 的性能,这些模拟数据集考虑了细胞生态位在细胞组成和基因表达方面的异质性,并且细胞生态位在空间连续性和组成复杂性上有所变化,以模拟不同组织的细胞微环境。研究人员选择了 10 种现有方法与 scNiche 进行比较,使用调整兰德指数(ARI)和宏 F1 分数这两个评估指标来评估识别真实细胞生态位的准确性。结果显示,scNiche 在准确识别细胞生态位方面表现出色,其性能几乎不受细胞生态位的空间连续性或组成复杂性的影响。在数据质量下降的模拟场景中,scNiche 也展现出了一定的稳定性。例如,在基因表达缺失的模拟场景中,scNiche 在较低的基因表达缺失率下性能相对稳定;在细胞注释缺失的模拟场景中,与 CytoCommunity 相比,scNiche 的性能更稳健。此外,通过对 scNiche 默认输入的三个视图以及模型的每个组件进行消融研究发现,所有三个视图的特征都有助于准确识别细胞生态位,并且 scNiche 的基于模型的特征融合策略优于简单的特征拼接。同时,M-GAE、GFN 和 MMIM 组件对 scNiche 的性能都有重要贡献。
- scNiche 在多种真实数据集上的性能评估:研究人员将 scNiche 应用于小鼠脾脏空间蛋白质组学数据集(由 CODEX 技术生成)、人类上尿路尿路上皮癌(UTUC)空间蛋白质组学数据集(由 IMC 技术生成)、小鼠脑空间转录组数据集(包括 STARmap 和 MERFISH 数据集)以及低分辨率的人类背外侧前额叶皮层(DLPFC)10X Visium 空间转录组数据集进行性能评估。在小鼠脾脏数据集上,scNiche 的批训练策略在不同批数设置下表现稳定,且在识别跨多个切片的细胞生态位方面与仅使用单个切片的性能相当,并且在两个评估指标上均优于其他方法,准确识别出了边缘区这一独特的细胞生态位。在人类 UTUC 数据集上,尽管区分肿瘤和基质生态位相对简单,但 scNiche 在所有 16 个样本中总体表现最佳,并且能够解析出一些样本中肿瘤和基质生态位边界的精细结构,较高聚类粒度的 scNiche 还能识别出更多精细的生态位。在小鼠脑空间转录组数据集上,scNiche 同样表现出优于其他方法的整体性能,表明其在准确识别不同空间组学数据中的细胞生态位方面具有普遍适用性。在低分辨率的 DLPFC 10X Visium 数据集上,经过修改后的 scNiche 与一些最先进的方法表现相当。
- scNiche 的可扩展性和稳健性分析:研究人员在一个包含超过 300 万个细胞的大型小鼠全脑 MERFISH 数据集上测试了 scNiche 和其他方法的可扩展性。结果表明,scNiche、BANKSY、UTAG 和 CellCharter 是仅有的四种能够扩展到该数据集的方法。scNiche 根据聚类稳定性在该数据集上识别出 14 个细胞生态位,并且这些生态位与小鼠脑的解剖区域准确对应,而其他一些方法则存在无法清晰区分某些脑区的问题。此外,研究人员还评估了 scNiche 对预定义邻域范围大小和不同随机种子选择的稳健性。结果显示,scNiche 在不同的 k 近邻选择下性能稳定,并且对不同随机种子选择的稳健性优于 UTAG、SpaGCN 和 DR-SC 等方法。
- scNiche 解析人类 TNBC 不同亚型和患者的细胞生态位:肿瘤微环境在癌症的发生和发展中起着关键作用,为癌症的诊断和治疗提供了新的机会。研究人员将 scNiche 应用于人类 TNBC 数据集(由 MIBI-TOF 技术生成),该数据集包含 19 个混合亚型样本和 15 个分隔亚型样本。scNiche 根据聚类稳定性识别出 13 个细胞生态位,大致分为肿瘤富集生态位和免疫富集生态位。通过比较两种 TNBC 亚型样本中富集的细胞生态位,发现肿瘤富集生态位在混合亚型样本中占主导,而免疫富集生态位在分隔亚型样本中更为普遍。不同的免疫富集生态位具有不同的细胞组成,对应着不同的微环境。例如,Niche 7 可能代表三级淋巴结构(TLS),Niche 8 则可能代表肿瘤的基质微环境。此外,研究人员还发现两个巨噬细胞富集的生态位(Niche 6 和 Niche 12)主要存在于不同的 TNBC 亚型中,并且巨噬细胞具有不同的表型,这可能与它们所处的微环境有关。进一步对肿瘤富集生态位进行细胞群体富集分析,揭示了它们之间更细微的组成差异,并且这些差异可能反映了患者的表型差异。
- scNiche 表征正常和疾病小鼠肝脏的细胞生态位:为了进一步证明 scNiche 在其他类型空间组学数据上的适用性,研究人员将其应用于小鼠肝脏空间转录组数据集(由 Seq-Scope 技术生成),该数据集包含 6 个正常供体和 4 个早期肝衰竭供体的细胞。考虑到正常和肝衰竭肝脏的高维空间转录组数据中存在显著的批次效应,研究人员在应用 scNiche 之前首先使用 scVI 进行降维和批次效应去除。scNiche 根据聚类稳定性识别出 15 个细胞生态位,其中大多数在正常或肝衰竭肝脏中特异性富集,揭示了不同的生理状态。在正常肝脏中,7 个细胞生态位表现出空间连续性,涵盖了从中央静脉到门静脉的分区模式,并且这些生态位中的差异表达基因也显示出明显的区域表达模式。在肝衰竭肝脏中,scNiche 发现了三个独特的生态位,这些生态位从损伤和炎症部位的核心到外周分布,富集了一系列新兴细胞群体,反映了肝损伤相关的特定微环境。此外,scNiche 还揭示了肝衰竭肝脏与正常肝脏相比,从中央静脉到门静脉的分区模式发生了部分重塑。
五、研究结论与讨论
本研究提出的 scNiche 计算框架为从单细胞分辨率的空间组学数据中识别和表征细胞生态位提供了一种准确且可扩展的方法。与以往基于深度学习的方法不同,scNiche 首先为细胞的每个视图特征构建单独的图,然后通过多个图自动编码器模型与图融合网络进行集成,这种方法在生态位建模中提供了更大的灵活性,同时更全面地考虑了细胞多视图的共同和互补信息。此外,scNiche 应用的多视图互信息最大化模块有助于学习更具判别力和有利于聚类的联合表示。
通过在多种空间组学数据集上的基准测试,scNiche 展现出了优于现有方法的性能,其批训练策略使其能够扩展到包含多个样本的大型数据集,而不会降低准确性。在人类 TNBC 数据集和小鼠肝脏数据集上的应用,有力地证明了 scNiche 在识别精细的患者特异性或疾病特异性细胞生态位方面的通用性。
scNiche 还实现了一个集成的下游分析框架,用于对识别出的细胞生态位进行全面表征和解释。其富集分析框架可以从多个角度(包括细胞组成、条件、样本等)对细胞生态位进行全面表征,多样本分析框架则可以在样本尺度上进行差异分析,有助于从大规模数据集中识别出临床相关的关键生态位或细胞群体,同时避免个体异常值的影响。而且,由于其模块化架构,scNiche 可以方便地与其他计算工具兼容和集成。
然而,研究人员也指出了 scNiche 存在的一些局限性。例如,在 “邻域细胞组成” 视图方面,虽然该视图在一定程度上有助于更准确地识别生态位,但与其他两个视图相比,其贡献相对较小,并且细胞类型标签的质量会影响 scNiche 的性能,在低分辨率空间转录组数据中,由于点阵列的分辨率限制,scNiche 在准确解析足够精细的细胞微环境方面可能存在困难。针对这些问题,研究人员提出了一些解决方案,如使用其他视图的特征作为替代,或先进行单细胞空间映射或重建,再应用 scNiche。
总体而言,scNiche 为深入研究细胞微环境提供了有力的工具,在生命科学和医学健康领域具有广阔的应用前景,有望推动相关领域的研究取得新的突破,为疾病的诊断、治疗和药物研发提供重要的理论依据和技术支持。