MaskGraphene:基于掩码自监督学习的空间转录组多切片整合与可解释嵌入框架
《Genome Biology》:MaskGraphene: an advanced framework for interpretable joint representation for multi-slice, multi-condition spatial transcriptomics
【字体:
大
中
小
】
时间:2025年11月07日
来源:Genome Biology 9.4
编辑推荐:
本研究针对空间转录组(ST)数据整合中难以同时保持空间几何结构并校正批次效应的关键挑战,开发了MaskGraphene图神经网络框架。该框架通过掩码自监督学习、三元组损失和簇间局部对齐策略,建立跨切片的"软链接"和"硬链接",生成具有高几何保真度的联合嵌入。在八种方法对比中表现最优,显著提升空间域识别、轨迹重建、生物标志物发现等下游应用效果,为多条件ST数据整合提供了强大工具。
随着空间转录组技术的快速发展,研究人员能够同时获取组织切片中mRNA表达谱和空间坐标信息,为解析组织异质性和细胞空间关系提供了前所未有的机会。然而,当面对来自不同实验条件、技术平台或发育阶段的多切片数据时,如何有效整合这些数据集成为亟待解决的关键问题。现有整合方法往往难以生成既能够校正批次效应,又能保持原始空间几何结构的可解释嵌入,这严重限制了多切片联合分析的深度和可靠性。
为了突破这一技术瓶颈,范德堡大学计算机系胡云飞等人开发了MaskGraphene这一创新性框架,并在《Genome Biology》上发表了他们的研究成果。该研究旨在解决多切片空间转录组数据整合中的核心挑战——如何在生成批次校正后的联合嵌入的同时,保持组织切片的几何结构信息。
研究人员采用了几项关键技术方法:首先利用掩码图注意力自编码器处理空间转录组数据,通过随机掩码节点特征并重构来学习稳健表示;其次引入三元组损失函数建立跨切片的"软链接",增强相似区域之间的关联;再者开发了基于最优运输的簇间局部对齐算法,构建跨切片的直接映射关系("硬链接");最后在包含人类前额叶皮层、小鼠下丘脑、果蝇胚胎等多个真实数据集和模拟数据上进行了系统验证。
研究人员在九对人类DLPFC切片和四对小鼠MHypo切片上评估了MaskGraphene的层间对齐精度。结果显示,MaskGraphene在所有DLPFC切片对中均实现了最高的对齐精度(层移为0时),特别是在相距300μm的远距离切片对(如DLPFC 151508-151509)中表现尤为突出。通过点对点匹配比率评估发现,MaskGraphene(1.31)实现了最佳的一对一匹配效果,显著优于其他方法。
MaskGraphene通过可解释联合嵌入增强整合并保持原始几何结构
UMAP可视化分析表明,MaskGraphene生成的联合嵌入能够有效保持DLPFC切片的整体形状、层状模式和空间关系。在定量指标方面,MaskGraphene在iLISI(衡量批次混合程度)和几何结构保持指标(等距相关性和Procrustes相异度)上均表现优异。通过PAGA轨迹分析进一步证实,MaskGraphene能够准确重建从层1到层6和白质(WM)的空间发育轨迹,显示出更好的连续性。
MaskGraphene通过可解释联合嵌入揭示组织地形图
将MaskGraphene的联合嵌入与GASTON算法结合,成功构建了大脑切片的地形图,揭示了神经元分化和活性的梯度变化。等深线分析清晰勾勒出不同皮质层之间的边界,基因表达梯度垂直于这些等深线分布。通过等深度-细胞类型分析发现,少突胶质细胞在白质和深层皮质层(5-6层)中占比最高,而谷氨酸能神经元在2-5层中比例较大且保持相对稳定,这与它们各自的功能定位高度一致。
MaskGraphene通过整合分析增强生物标志物发现
在DLPFC数据集中,MaskGraphene识别出的层标志基因与真实标志基因的重叠比率显著高于其他方法,特别是在第1层和第3层。整合分析还发现了18个在单切片分析中未能检测到的层一致性标志基因,如NTNG2和BEND5,这些基因在整合后显示出清晰的分层表达模式。在乳腺癌数据集中,MaskGraphene同样表现出色,ARI达到0.56,并成功识别出KRT5等具有空间一致性的肿瘤边缘标志物。
MaskGraphene成功捕捉模拟数据中的部分重叠切片现象
通过模拟不同重叠比例(20%-100%)的DLPFC切片数据,验证了MaskGraphene处理部分重叠切片的能力。结果显示,对齐点的联合嵌入Pearson相关系数达到1.0,点对点对齐精度在100%重叠时达到完美,随着重叠比例降低略有下降。在真实的果蝇胚胎Stereo-seq数据中,MaskGraphene成功整合了在细胞类型组成上存在明显差异的切片,同时保持了胚胎的整体几何结构。
在DLPFC四切片整合中,MaskGraphene的聚类ARI得分最高,清晰分离了七个层状区域。对于MHypo数据集,MaskGraphene和BASS在成对整合中表现最佳,而在五切片整合中MaskGraphene独占鳌头。值得注意的是,当整合切片数量增加时(如小鼠大脑MB十切片整合),MaskGraphene仍能保持稳定的聚类性能,ARI得分在0.415-0.662之间,显著优于STAligner。
在小鼠大脑MB十切片整合任务中,MaskGraphene成功实现了大规模数据整合,生成的联合嵌入在UMAP可视化中显示出良好的批次混合效果,PAGA图呈现出从层1到层6的连贯空间轨迹。这一结果表明MaskGraphene具备处理大规模空间转录组数据的能力,为整合数十甚至数百个切片提供了可行方案。
MaskGraphene对齐不同发育阶段的组织和器官
通过整合E11.5和E12.5两个时间点的小鼠胚胎Stereo-seq数据,MaskGraphene成功识别了跨时间点的共享组织结构和发育特异性结构。在组织比例分析中,MaskGraphene的预测与真实比例更为接近,差异较小(45.7%和36.3%)。特别是在大脑组织检测方面,MaskGraphene明显优于STAligner。从E11.5到E16.5的六时间点整合分析进一步显示,MaskGraphene准确捕捉了大脑相对尺寸先增大后略微减小、肝脏比例持续上升等符合生物学规律的发育动态。
在成对整合场景下,MaskGraphene在多个数据集上均表现出较低的运行时间,显著优于DeepST和SPIRAL等方法。在多切片整合场景中,即使面对包含50万斑点的大规模数据集(如小鼠胚胎),MaskGraphene仍能保持良好的可扩展性,为大规模空间转录组整合任务提供了实用解决方案。
本研究通过系统验证表明,MaskGraphene框架在保持空间几何结构、校正批次效应、提升下游分析性能等方面均优于现有方法。其核心创新在于将最优运输局部对齐、掩码自监督表示学习和三元组驱动建模有机结合,生成的联合嵌入既忠实保持空间几何特性,又能有效支持多种生物学分析。该框架的成功开发为空间转录组学数据的多切片整合建立了新标准,有望在发育生物学、疾病机理研究和临床诊断等领域发挥重要作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号