《Nature Cell Biology》:CoCo-ST detects global and local biological structures in spatial transcriptomics datasets
编辑推荐:
本研究针对当前空间转录组数据分析方法难以检测低变异空间结构的瓶颈,开发了名为CoCo-ST的图对比特征表示框架。通过对比目标样本与背景样本,该方法成功识别出传统方法易忽略的早期腺瘤等低变异结构,在多种技术平台验证中均表现优异,为肿瘤微环境演化研究提供了有力工具。
空间转录组学(ST)技术的快速发展让我们能够以前所未有的分辨率观察组织中基因表达的空间分布。然而,现有的分析方法往往聚焦于那些基因表达显著变化的"高光区域",却对那些变化细微但生物学意义重大的"暗区"视而不见,如正常组织与早期腺瘤之间的过渡区域。这种局限性使得研究人员在研究肿瘤发生等动态过程时,难免会错过关键的空间信息。
传统方法如主成分分析(PCA)和非负矩阵分解(NMF)虽然被广泛使用,但它们主要关注整体模式,对局部结构的捕捉能力有限。尽管近年来出现了GraphST、SpaGCN、STAGATE和BayesSpace等考虑空间约束的算法,但它们仍然倾向于识别高变异度的显性结构,且通常只能单样本分析,难以应对多样本整合时的批次效应问题。
为了解决这些难题,MD安德森癌症中心的研究人员在《Nature Cell Biology》上发表了他们的最新成果——CoCo-ST(Compare and Contrast Spatial Transcriptomics)。这个创新的图对比学习框架通过巧妙的设计,实现了对空间转录组数据中整体和局部结构的精准识别。
关键技术方法
研究人员开发了CoCo-ST算法,其核心是通过对比背景样本和目标样本的图结构来学习特征表示。具体包括:构建基于基因表达或空间坐标的加权图;利用图拉普拉斯滤波器保留空间结构;通过求解特征值问题获得对比特征表示。研究使用小鼠肺癌模型(包括正常肺组织和不同阶段的肿瘤组织),采用Visium、Visium HD和Xenium Prime 5K等多种空间转录组技术平台,结合匹配的单细胞RNA测序(scRNA-seq)数据进行分析。通过调整兰德指数(ARI)和标准化互信息(NMI)等指标进行性能评估,并与10种现有方法进行系统比较。
研究结果
CoCo-ST的创新之处在于其对比学习框架。研究团队构建了两个加权图——背景图和目标图,通过比较它们的局部总散射矩阵差异来获得对比特征表示。
当分析新的目标ST数据集时,CoCo-ST只需使用学习到的转换矩阵即可为新数据生成特征表示。这些对比特征表示可作为各种ST分析工具的输入,用于增强下游分析。研究人员首先将正常肺组织样本(MLP-1)作为背景,异常肺组织样本(MLP-6)作为目标,应用CoCo-ST学习特征转换。UMAP嵌入可视化显示,CoCo-ST能有效区分目标组织中的各种空间结构。基于对比特征的聚类识别出六个空间域,与病理学家标注的区域高度一致。相比之下,BayeSpace、Giotto、GraphST等方法由于无法检测低变异空间结构,未能有效识别病理学家标注的增生热点区域。定量比较显示,CoCo-ST在热点区域检测中获得了最高的ARI值(0.88)和NMI值(0.73)。在九个小鼠肺组织样本(MLP-2-10)上的系统评估表明,CoCo-ST在识别生物学相关空间域方面 consistently优于其他方法。
特别是在MLP-6和MLP-9样本中,CoCo-ST成功检测到增生、早期腺瘤、晚期腺瘤和腺癌等热点区域,而其他方法要么完全错过,要么只能部分捕获这些空间域。研究发现,无论是基于基因表达数据还是空间坐标构建相似图,CoCo-ST都能有效识别主要空间域,证明了其鲁棒性。CoCo-ST通过对比学习框架有效解决了多样本整合中的批次效应问题。
kBET分析显示整合后批次效应显著降低(kBET值接近1),且不同批次的空间点能形成连贯的聚类。在多样本整合场景下,CoCo-ST仍能准确识别早期腺瘤区域,而STAGATE等方法在相同条件下无法准确识别这些区域。通过细胞类型反卷积分析,研究人员发现正常肺空间域富含内皮细胞,纤维化/疤痕和支气管/肺泡区域富含成纤维细胞,腺瘤区域则富含巨噬细胞和增殖巨噬细胞。值得注意的是,在邻近正常空间域中观察到肿瘤相关巨噬细胞(TAMs)显著上调Ccl6,该基因与CoCo-ST的第四成分密切相关。细胞间相互作用分析揭示了内皮细胞与上皮细胞、内皮细胞与成纤维细胞之间的强烈通讯模式。WNT信号通路在内皮细胞、上皮细胞、成纤维细胞和巨噬细胞中广泛存在,网络中心性分析显示TAMs是WNT信号通讯的关键调节者。空间轨迹推断显示,从正常内皮域到邻近正常域,再到腺瘤空间域的演化路径,这与小鼠肿瘤发生生物学过程一致。跨多个组织的轨迹分析进一步揭示了从正常组织到腺瘤,再到腺癌的完整演化路径。向Xenium Prime 5K和Visium HD数据集的扩展CoCo-ST在Visium HD数据集(16μm、8μm和2μm分辨率)和Xenium Prime 5K单细胞分辨率数据上都表现出良好性能。
在Visium HD数据中,CoCo-ST能识别组织内的空间域和病理学家定义区域对应的空间生态位。在Xenium Prime 5K数据中,CoCo-ST能区分肿瘤上皮细胞和支气管上皮细胞,而传统的scRNA-seq整合方法未能实现这一区分。
除了癌症组织,CoCo-ST在分析小鼠脑组织(前部和后部)的公共Visium数据时也表现出色。检测到的空间域与Allen脑科学研究所参考图谱高度一致,且前五个对比成分能捕获大脑特定解剖区域的空间模式。参数敏感性分析显示,CoCo-ST在不同参数配置下都能保持高而稳定的ARI和NMI分数,表明其对参数选择具有鲁棒性。计算复杂度分析证明,即使对于高分辨率数据集,CoCo-ST也能在合理时间内完成处理。CoCo-ST通过引入背景数据集,有效识别了目标ST数据集中独特的低变异空间结构,同时减轻了共享的高变异空间结构的影响。其对比设计实现了多样本的无缝整合,在多种组织样本上的性能评估均优于现有方法。该研究的创新点在于:首先,CoCo-ST能够同时捕捉全局和局部层次的特征表示,弥补了组织范围表示的不足;其次,其对参数选择具有鲁棒性,增强了在不同数据集上的实用性;第三,该方法可扩展至多种空间分辨率平台,从点水平的Visium到单细胞分辨率的Xenium Prime 5K和亚细胞分辨率的Visium HD。值得注意的是,研究团队发现Ctsh在病理学家标注的增生、早期腺瘤、晚期腺瘤和腺癌区域持续高表达,虽然Ctsh尚未成为经过验证的标志物,但这一发现支持了其作为辅助标志物的潜力,值得进一步研究。CoCo-ST的建立为空间转录组分析设立了新标准,结合了鲁棒性、可扩展性和跨技术平台的通用性。其适应各种平台的能力以及识别复杂空间结构的特点,使其成为推动我们对组织异质性和空间动力学理解的重要工具,有望在空间生物学研究中驱动创新。