SpaBatch:基于深度学习的空间转录组学跨切片整合与三维空间域识别新方法

【字体: 时间:2025年09月17日 来源:Advanced Science 14.1

编辑推荐:

  本刊推荐:该研究针对空间转录组学(ST)多切片整合与三维空间域识别中的技术瓶颈,提出了深度学习框架SpaBatch。该方法通过掩蔽数据增强、变分图自编码器(VGAE)和深度嵌入聚类(DEC)模块,有效解决了批次效应校正和跨切片空间对齐难题。在八类真实数据集(包括人脑皮层、小鼠胚胎、HER2+乳腺癌等)上的验证表明,其在不同平台(10x Visium/Stereo-seq/MERFISH)均优于现有方法,为发育生物学和肿瘤微环境研究提供了强大工具。

  

引言

空间转录组学(Spatial Transcriptomics, ST)技术的快速发展使得能够在保留空间背景的前提下捕获组织内基因表达,为细胞空间组织和组织结构提供了关键见解。近年来,多种不同空间分辨率的ST技术被开发出来,例如10x Visium使用直径为55μm的捕获探针在点水平上量化转录本丰度,每个点通常包含多个细胞;Slide-seq及其改进版本Slide-seqV2达到约10μm的分辨率,接近单细胞分辨率;Stereo-seq实现500nm(0.5μm)的空间分辨率,以其超高分辨率和厘米级组织覆盖在ST技术中取得突破。

在ST数据分析中,空间域识别是核心任务之一,旨在将组织切片划分为多个功能区域,确保同一域内的空间点表现出相似的基因表达模式。近年来,在单个切片的二维空间域识别方面取得了显著进展,例如使用图神经网络和整合ST数据与组织学图像的深度学习方法显著提高了单切片ST数据分析中空间域识别的准确性。然而,生物体和组织的生物活动本质上是三维的。随着在各种条件、技术和平台下生成的ST数据集的不断积累,迫切需要联合分析来自多个组织切片的ST数据,以揭示复杂的组织结构并解码个体间的生物模式。然而,跨多个切片整合ST数据和三维空间域识别提出了重大挑战,例如空间错位和批次效应。

实验部分

数据集与数据预处理

研究将SpaBatch应用于来自不同物种、平台和异常组织切片的八个ST数据集进行整合分析,以验证模型性能。数据集包括人背外侧前额叶皮层(DLPFC)数据集、小鼠大脑矢状切片数据集、冠状小鼠全脑数据集、早期小鼠胚胎数据集、人胚胎心脏数据集、HER2阳性乳腺癌数据集和小鼠下丘脑视前区数据。输入数据由多个切片的基因表达矩阵及其空间位置组成。首先,沿点维度连接基因表达矩阵以构建多切片基因表达矩阵。过滤在少于50个细胞中表达且总表达计数小于10的基因,随后对基因表达进行对数转换并使用SCANPY包基于文库大小进行标准化。最后,选择前2000个高变基因,并应用主成分分析(PCA)降低基因表达矩阵的维度,同时尽可能保留数据变异性。

基于掩蔽机制的数据增强

空间转录组数据通常具有高稀疏性和显著噪声的特点,这对稳健的特征学习提出了巨大挑战。受掩蔽自编码器(MAE)的启发,在数据预处理阶段引入了一种基于掩蔽的新增增强策略:随机掩蔽一部分点并将其基因表达向量替换为可学习的嵌入向量。这鼓励模型从相邻上下文推断掩蔽区域的表达,从而增强其处理缺失或损坏数据的能力。

空间图构建

通过计算点之间的欧几里得距离并为每个点选择k个最近邻来构建空间图。如果点i和点j是邻居,则Aij = Aji = 1。邻接矩阵是对称的,并以稀疏矩阵的形式存储。调整k使得每个点的邻居数量在6到12之间,使其适应不同的ST场景和平台。为每个切片中的点分别构建邻接矩阵,然后以块对角形式连接每个切片的邻接矩阵。

使用SpaBatch进行潜在表示学习

基因表达的潜在表示学习通过掩蔽变分图自编码器(VGAE)实现,该编码器由编码器和解码器组成。在编码器中,堆叠两个全连接层以从掩蔽基因表达矩阵生成低维表示。图卷积网络(GCN)层将空间图嵌入到表示中,捕获邻居之间的空间关系。第一个GCN层用于学习共享表示,第二个GCN层使用两个不同的参数独立建模均值和方差。采用重参数化技巧构建潜在表示,然后使用内积解码器重建邻接矩阵。除了重建损失外,还计算节点表示向量分布与标准正态分布之间的KL散度,以鼓励学习的潜在空间匹配先验分布。解码器部分使用单层GCN从潜在表示重建原始输入基因表达矩阵,并在掩蔽自监督框架下构建重建损失,通过最小化掩蔽基因表达矩阵与重建矩阵之间的差异来优化。

自监督模块

在预训练阶段,SpaBatch通过变分图自编码器(VGAE)学习基因表达在潜在空间中的低维嵌入。随后引入深度嵌入聚类(DEC)以细化潜在表示的局部聚类细节。在正式训练阶段,模型在潜在空间中定义聚类层,对潜在表示进行K-means聚类,并将聚类质心初始化为每个聚类中样本的均值。这些质心存储在聚类层中,并通过迭代优化进一步细化以提高聚类准确性。使用学生t分布相似性来量化点与聚类质心之间的关系,并将其转换为点i属于特定聚类j的概率分布。此外,自监督模块通过增强当前软分配分布的峰值生成目标分布,旨在提高模型区分不同聚类的能力。自监督模块最小化目标分布与软分配概率之间的KL散度。

基于读取聚合策略的三元组学习

为了解决多个ST切片之间的批次效应,受深度图信息最大化(DGI)的启发,应用了基于读取聚合策略的三元组学习框架。首先在不同切片对之间建立 pairwise 关系,并基于它们的低维嵌入计算来自不同对的点之间的余弦相似性。如果切片A中的点i和切片B中的点j出现在彼此的最近邻集合中,则它们被定义为互最近邻(MNNs)并被选为锚点。对于锚点i,为每个配对关系构建一个跨切片邻接图,使用预训练阶段获得的低维嵌入。首先在锚点i的跨切片邻接图中选择α个最相似的邻居,形成正样本集;然后将正样本集聚合成单个正表示;类似地,通过随机采样α个不相似的点构建负样本集,并将它们聚合成单个负表示;采用三元组损失来最小化锚点-正样本对之间的距离,并最大化锚点-负样本对之间的距离在潜在空间中的距离。

总体损失函数

在预训练阶段,仅优化VGAE损失函数以获得点在潜在空间中的低维嵌入。在训练阶段,优化VGAE损失,同时每20个周期更新自监督模块,每500个周期更新三元组损失,最终获得最终潜在嵌入。总体损失函数表示为VGAE损失、DEC损失和三元组损失的加权和,系数λ1、λ2和λ3根据经验设置,以确保有效的表示学习、聚类和批次效应校正。

三维空间聚类

在使用SpaBatch从ST数据学习潜在表示后,生成低维嵌入并随后进行聚类以识别空间域。使用R中的mclust包进行聚类。为了全面评估聚类性能,SpaBatch采用多个评估指标,包括调整兰德指数(ARI)、平均聚类一致性(ACC)和V-measure。

评估标准

调整兰德指数(ARI)用于衡量聚类结果与手动注释之间的相似性。ARI的范围为[-1, 1],值越接近1表示聚类性能越好,值越接近0表示聚类类似于随机分配。平均聚类一致性(ACC)通过结合标准化互信息(NMI)和调整互信息(AMI)来评估聚类结果的一致性。V-measure是一种基于信息理论的聚类评估指标,由同质性(HOM)和完整性(COM)两个组成部分组成,计算这两个指标的调和均值以全面评估聚类结果与手动注释之间的一致性和完整性。整合局部逆辛普森指数(iLISI)和细胞类型局部逆辛普森指数(cLISI)是两个重要的指标,用于评估单细胞或空间转录组学数据的整合性能。iLISI用于评估数据整合后批次效应去除的有效性,测量每个细胞的局部邻域内不同批次的混合程度,较高的iLISI值表示更好的批次混合。cLISI用于评估数据整合后细胞类型(或空间域)的分离情况,测量每个细胞的局部邻域内细胞类型的同质性,较低的cLISI值表示更好的细胞类型(或空间域)分离。

实现细节

所有实验均在单个NVIDIA RTX 4090Ti GPU上进行。掩蔽率设置为0.2,调整参数k用于构建空间图,将邻居数量设置在6到12之间,使其适应不同的ST场景和平台。编码器的全连接层维度设置为64和16,而图卷积层设置为64和16。自监督模块中的聚类质心数量设置为20,学习率和权重衰减分别设置为5e-4和1e-4,并使用Adam进行优化。记录了SpaBatch在不同数据集下的运行时间和内存使用情况,随着点数量的增加,计算时间和内存消耗稳步上升,表明SpaBatch表现出良好的资源利用效率。

基线方法

研究将SpaBatch与多种最先进的方法进行了比较,包括Scanpy、STAligner、STG3Net、SEDR、DeepST、SpaGIC和STitch3D。这些方法在数据处理、特征学习和批次效应校正方面采用了不同的策略,为评估SpaBatch的性能提供了全面的基准。

结果

SpaBatch在DLPFC数据集中有效校正批次效应并精确识别空间域

为了定量评估SpaBatch在多切片联合分析中空间域识别和批次效应校正方面的性能,首先将其应用于由10x Genomics Visium测量的人背外侧前额叶皮层(DLPFC)数据集。将来自不同供体的样本分为三组,每组样本包含四个相邻切片。首先在样本3上评估性能,观察到SpaBatch、STAligner和STG3Net识别的空间域在同一皮层层内良好混合,而不同皮层层则根据层1到层6和白质层(WM)的空间结构有序排列。与后两种方法相比,SpaBatch产生了更精确的边界和形状。其他方法在层1-4内的空间域识别不准确。SpaBatch在ARI方面实现了最高的聚类准确性,平均值为0.613,超过了STAligner(ARI = 0.578)和STG3Net(ARI = 0.576),并显著优于其他方法。在样本1和样本2上进行了相同的实验,结果显示SpaBatch在三维空间域识别方面优于其他方法。计算了所有12个切片的ARI值,结果表明SpaBatch优于所有其他方法,实现了最高的中位数和平均ARI分数,从而进一步突出了其在DLPFC数据集上空间域识别方面的优势。此外,通过比较不同随机种子下的聚类准确性来测试SpaBatch的鲁棒性,发现SpaBatch对随机种子的变化不敏感。

Scanpy的均匀流形近似与投影(UMAP)可视化结果显示,批次之间在UMAP空间中没有明显分离,表明DLPFC数据集中的批次效应不显著。然而,与基于深度学习的模型相比,Scanpy的聚类边界相对模糊,其聚类结果表现出较差的紧凑性和空间一致性。这突显了传统方法在处理复杂空间转录组模式方面的局限性。其他深度学习方法产生了与手动注释高度对应的良好组织层结构。特别是,SpaBatch在准确捕获空间域结构方面表现出卓越能力,其UMAP可视化与手动注释的层分布紧密匹配。此外,SpaBatch实现了不同批次之间的平滑和均匀混合,这很好地反映在跨切片批次整合中。值得注意的是,尽管一些深度学习模型(如STAligner和SpaGIC)在一定程度上提高了聚类紧凑性,但其经过批次校正的UMAP可视化仍然显示出不同批次样本再次分离的趋势。这种“过校正”现象表明这些模型在整合过程中可能过度强调了批次校正。iLISI和cLISI的值也间接证明了SpaBatch实现有效切片混合和批次效应校正的能力。虽然STG3Net较高的cLISI分数突出了其在批次效应校正方面的优势,但这是以降低iLISI为代价的,表明可能丢失了生物信号。另一方面,DeepST较高的iLISI分数反映了更好的生物信号保留,但cLISI表现不佳,表明批次效应校正不足。SpaBatch表现出平衡的性能,在cLISI方面表现出色,同时保持高iLISI分数。这种平衡展示了SpaBatch在有效执行批次效应校正的同时保留关键生物信号的能力。SpaBatch不仅在空间域识别方面实现了更高的准确性,而且确保了批次间的整合保持高度一致性和连贯性。这一优势在其他样本中继续保持。

通过执行差异表达分析和先前报告,进一步鉴定了层标记基因,例如AQP4(层1)、CARTPT(层2)、ENC1(层3)、PCP4(层4)、TMSB10(层4和层5)和MBP(WM),这些基因在不同皮层层之间表现出显著的表达差异。通过可视化层5中的层标记基因TMSB10,证明SpaBatch可以有效地识别层标记基因并描述不同样本之

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号