编辑推荐:
为解决现有空间转录组学(SRT)空间域聚类方法的不足, 研究人员开展 stDyer 框架研究。结果显示 stDyer 在多数据集上表现优异。该研究为 SRT 分析提供新方法,强烈推荐科研读者阅读。
探索空间转录组的新利器 ——stDyer
在生物学的微观世界里,空间转录组学(Spatially resolved transcriptomics,SRT)技术就像一把神奇的钥匙,为我们打开了一扇全新的大门,让我们得以窥探基因在组织内的表达模式与空间分布之间的神秘联系。想象一下,细胞们就像一个个小小的工厂,每个工厂都在生产着不同的 “产品”(基因表达产物),而 SRT 技术能帮助我们看清这些工厂在组织这个 “大社区” 里的具体位置和它们的生产模式,这对于理解组织发育、疾病发生发展等过程至关重要。
要深入了解组织的奥秘,识别空间转录组数据中的空间域(spatial domain,即那些基因表达模式相似的区域)是一项关键任务。然而,现有的聚类或社区检测方法,比如 K-means 和 Leiden 算法,就像是 “盲人摸象”,它们只依赖基因表达数据,却忽视了空间信息。这就好比在绘制地图时,只标注了城市的名称,却忽略了它们的地理位置,结果往往导致划分出的空间域缺乏空间连续性,无法准确反映真实的组织情况。
为了解决这些问题,科学家们纷纷 “出招”,开发出了各种算法,大致可以分为概率方法和深度学习模型两类。概率方法中,像 HMRF(Hidden Markov Random Field,隐马尔可夫随机场),它尝试把空间坐标考虑进去,就像给地图加上了一些简单的位置信息,但在估计大量参数时不太稳定,容易 “跑偏”;BayesSpace 则通过改进的 t 分布误差模型和马尔可夫链蒙特卡罗方法,让结果更可靠一些,但也存在一定的局限性。深度学习模型这边,SpaGCN、STAGATE 等利用图卷积网络(Graph Convolutional Networks,GCNs)或图注意力网络(Graph Attention Networks,GATs)在空间图上大显身手,试图捕捉空间依赖关系,但它们大多依赖固定的空间图,还假设相邻单元属于同一空间域,这对于处于空间域边界的单元来说不太公平,容易出现误判,而且这些深度学习模型很多都不是端到端的,需要独立的聚类步骤,影响了性能。此外,在面对多切片和大规模数据集时,现有工具的可扩展性也面临巨大挑战,就像小马拉大车,力不从心。
面对这些困境,来自 [第一作者单位] 的研究人员决心寻找更好的解决方案。他们在《Genome Biology》期刊上发表了题为 “stDyer: an end-to-end deep learning framework for spatial domain clustering in spatial transcriptomics” 的论文,成功开发出了一种名为 stDyer 的端到端深度学习框架,为空间转录组学研究带来了新的曙光。
研究人员在这项研究中用到了几个关键的技术方法。他们将高斯混合变分自编码器(Gaussian Mixture Variational AutoEncoder,GMVAE)与图注意力网络(GAT)相结合,让模型能够同时进行深度表示学习和聚类。为了更好地处理边界单元的问题,他们引入了动态图(dynamic graph),根据高斯混合模型(Gaussian Mixture Model,GMM)的临时空间域标签来动态更新图的边,使处于同一空间域的单元更容易连接起来。此外,为了应对大规模数据集,他们还采用了小批量邻居采样策略,并实现了多 GPU 训练,大大提高了模型的可扩展性。
下面我们来看看 stDyer 在实际应用中的表现吧。
1. stDyer 的工作流程
stDyer 的工作流程就像一场精心编排的舞蹈。首先,研究人员利用 SRT 数据中单元的空间坐标构建 K 近邻(K-nearest neighbor,KNN)空间图,这个图和基因表达谱一起作为 GMVAE 的输入。GMVAE 中的编码器由 GAT 组成,它能像一个细心的观察者,从目标单元的邻居那里收集信息,生成聚合表示,提高空间域推断的准确性。在潜在空间中,stDyer 鼓励单元的基因表达由其邻居重建,同时 GMVAE 假设单元嵌入遵循 GMMs,这样就能在每个训练周期为所有单元生成临时空间域标签。在第一个训练周期,stDyer 会修改 KNN 空间图,连接额外的邻居,这些邻居和目标单元必须共享相同的临时空间标签,之后动态图会不断更新。最后,stDyer 还包含一个后处理模块,用来去除异常值和平滑空间域边界,并且通过综合梯度分析(Integrated Gradient Analysis)来识别空间可变基因(Spatially Variable Genes,SVGs)。
2. stDyer 在 10x Visium 技术生成的 DLPFC 数据集上的表现
研究人员首先用 10x Visium 技术生成的人类背外侧前额叶皮层(DLPFC)数据集来检验 stDyer 的能力。这个数据集包含 12 个切片,每个切片都有不同数量的单元和标注的空间域。研究人员将 stDyer 与 10 种最先进的方法进行比较,评估指标是调整兰德指数(Adjusted Rand Index,ARI)。结果发现,stDyer 表现出色,平均 ARI 达到 0.612,远远超过了排名第二的 GraphST。在对切片 151673 和 151674 的可视化分析中,stDyer 能够准确地识别出多个层和白质,而其他方法则出现了各种问题,比如 GraphST 在切片 151674 上无法区分 L4 和 L5。此外,stDyer 生成的单元嵌入在轮廓系数(Silhouette score)评估中得分最高,表明其聚类分离性最好。研究人员还通过综合梯度分析确定了一些 SVGs,发现其中一些与之前报道的皮层层标记基因相符,还找到了可能的新标记基因,比如 NEFM 可能是 L4 的标记基因。
3. stDyer 支持多切片空间域聚类
为了进一步探索 stDyer 在多切片分析方面的能力,研究人员将 DLPFC 数据集的 12 个切片分成三个部分,每个部分包含四个相邻切片。他们构建了三维 KNN 空间图,联合分析每个部分的四个切片。结果发现,多切片 stDyer(stDyer (M))在 8 个切片上的表现优于单切片 stDyer(stDyer (S)),尤其是对于初始质量较低的切片,多切片聚类能够利用相邻切片的信息,显著提升聚类效果。与其他支持多切片聚类的方法相比,stDyer (M) 的平均 ARI 达到 0.650,同样远超其他方法,其生成的单元嵌入也与空间域注释更加一致。
4. stDyer 在斑马鱼肿瘤数据集上的表现
研究人员接着把 stDyer 应用到 10x Visium 技术生成的斑马鱼黑色素瘤数据集上,这个数据集包含肿瘤、界面和正常组织等高度异质的空间域。研究人员用轮廓系数(SS)来评估空间域聚类工具的性能,结果 stDyer 再次脱颖而出,获得了最好的 SS 值 0.166,成功识别出肿瘤和界面域,还发现了一些与空间域相关的 SVGs。例如,ppt1 在肿瘤域中高表达,rps18 的表达随着单元从肿瘤域到界面域再到肌肉域逐渐降低,通过进一步分析还发现斑马鱼黑色素瘤肿瘤细胞可能存在与肿瘤进展相关的类似基因特征,不过这还需要更多实验来验证。
5. stDyer 在 osmFISH 技术生成的小鼠皮层数据集上的表现
在 osmFISH 技术生成的小鼠皮层数据集上,stDyer 同样表现出色。这个数据集包含 4839 个单元和 33 个基因,单元可以分为 11 个空间域。stDyer 在这个数据集上的 ARI 达到 0.733,超过了其他所有方法,生成的空间域边界平滑,并且获得了最高的轮廓系数,其生成的单元嵌入也能很好地分离不同的空间域,比如将 L2 - 3l 和 L2 - 3m 区分开来。
6. stDyer 在 STARmap 技术生成的小鼠皮层数据集上的表现
研究人员还用 STARmap 技术生成的小鼠皮层数据集对 stDyer 进行了测试。这个数据集包含 1207 个单元和 1020 个基因,单元被注释为 7 个空间域。在预测小鼠皮层的层状结构方面,SpaDo 表现较好,ARI 为 0.730,stDyer 以 ARI 0.664 排名第二。不过,当研究人员对 stDyer 采用类似 SpaDo 的初始化策略时,stDyer 成功识别出所有 7 个域,ARI 达到 0.742。此外,stDyer 生成的单元嵌入在评估指标中表现优异,获得了最高的轮廓系数和最低的戴维斯 - 布尔丁指数(Davies - Bouldin score,DBS),并且通过综合梯度分析发现了与 L2/3 和 L6 相关的 SVGs。
7. stDyer 在 Stereo - Seq 技术生成的大规模小鼠胚胎数据集上的表现
Stereo - Seq 技术能够生成包含大量切片的小鼠胚胎 SRT 数据,研究人员用这个数据集来测试 stDyer 处理大规模数据的能力。他们将 stDyer 和其他 9 种方法应用到 E16.5 小鼠胚胎的切片上,其中切片 7 的单元数量最多,达到 155,047 个。在这个切片上,stDyer 获得了最高的 ARI 分数 0.359。在对所有 13 个切片的测试中,stDyer 同样表现出色,平均 ARI 达到 0.393,超过了其他方法。而且,stDyer 在内存使用和运行时间方面也有优势,它采用的小批量策略使其内存效率更高,虽然在处理大规模数据集时运行速度不是最快的,但随着单元数量增加,其图形内存需求增长不明显,并且通过多 GPU 训练可以进一步提高速度。
总的来说,stDyer 作为一种创新的空间转录组空间域聚类框架,在单切片和多切片联合分析中都展现出了卓越的性能,能够有效识别空间域和空间可变基因。它就像一个精准的 “导航仪”,为研究人员在复杂的空间转录组数据海洋中指引方向。
不过,研究人员也发现,虽然 SRT 技术不断发展,一些技术能够生成组织切片的组织学图像,但将图像特征与基因表达谱结合并没有提高 stDyer 的聚类效果,反而受到了图像噪声的影响。未来,可能需要使用高质量、具有生物学信息的图像或更先进的图像处理模型来进一步提升聚类结果。此外,随着 SRT 技术的发展,数据集规模越来越大,stDyer 的小批量技术和多 GPU 支持使其在处理大规模数据方面具有很大优势,但它目前还无法处理批次效应,对于存在明显批次效应的切片,需要在聚类分析前进行处理。
stDyer 为空间转录组学研究提供了一个强大的工具,它的出现推动了我们对组织中基因表达空间模式的理解,为后续的生物学研究和医学应用奠定了坚实的基础。相信在未来,随着技术的不断改进和完善,stDyer 将在生命科学领域发挥更大的作用,帮助我们解开更多的生物学谜团。