SpaTM:基于主题模型的统一框架实现空间转录组学的可解释性分析与跨模态整合

《Briefings in Bioinformatics》:SpaTM: topic models for inferring spatially informed transcriptional programs

【字体: 时间:2025年12月09日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对空间转录组学分析中工具分散、可解释性差的问题,开发了SpaTM主题模型框架。该模型通过整合监督主题模型(SpaTM-S)、关系主题模型(SpaTM-R)和引导主题模型(SpaTM-G),实现了空间标注预测、邻近点识别和细胞类型反卷积等多任务联合分析。在DLPFC和乳腺癌等数据集上的验证表明,SpaTM在保持竞争性性能的同时,能推断具有生物学意义的基因程序,为单细胞图谱的空间信息填补提供了新工具。

  
随着空间转录组学技术的迅猛发展,研究人员现在能够以前所未有的分辨率捕获组织内基因表达的空间定位信息。这项技术为理解发育过程、疾病机制和组织结构提供了全新视角。然而,当前的分析流程面临着一个突出挑战:研究人员需要组合使用多种独立工具来完成不同的分析任务,如空间域识别、细胞类型解卷积和基因程序推断等。这种"工具碎片化"不仅增加了分析复杂度,更导致结果难以整合和解释。
现有方法大多专注于单一任务,例如BayesSpace和SpaGCN擅长空间聚类,但需要通过下游差异表达分析来识别标记基因,这种方法容易产生假阳性结果。而像Tangram和novoSpaRc这样的对齐方法,虽然能够将单细胞数据映射到空间位置,却缺乏对驱动空间注释的基因程序的直接解释能力。更重要的是,当面对大规模单细胞图谱数据时,如何将空间信息有效地填补到这些数据中,仍然是一个亟待解决的难题。
为了解决这些挑战,麦吉尔大学的研究团队在《Briefings in Bioinformatics》上发表了题为"SpaTM: topic models for inferring spatially informed transcriptional programs"的研究论文。他们开发了一个基于主题模型的可解释框架,能够统一处理空间转录组学的多种分析任务。该研究的创新之处在于将主题模型这一传统上用于文本分析的概率模型,巧妙地适应于空间转录组学数据分析,为这一快速发展的领域提供了新的解决方案。
研究方法上,作者主要采用了三种核心技术:基于引导主题模型的细胞类型反卷积(SpaTM-G)、结合逻辑分类器的监督主题模型(SpaTM-S)用于空间标注预测,以及关系主题模型(SpaTM-R)用于细胞邻近性推断。研究使用了来自人类背外侧前额叶皮层(DLPFC)的10x Visium数据、MERFISH小鼠脑切片数据、乳腺癌导管癌样本以及重大抑郁障碍(MDD)单核RNA测序数据集进行方法验证和基准测试。

监督主题模型的精准预测能力

研究人员首先评估了SpaTM-S在人类背外侧前额叶皮层切片中预测空间皮层标注(L1-L6和白质)的性能。通过在四种不同场景下的基准测试,包括同患者切片间预测和跨患者预测,SpaTM-S展现出了卓越的预测准确性。与CeLEry、Tangram等现有方法相比,SpaTM-S在跨样本预测中表现出更强的鲁棒性,特别是在使用三个切片进行训练时,其准确率比基础SpaTM提高了3.56个百分点。
可视化分析显示,SpaTM-S预测的空间标注能够清晰恢复真实标注,具有明确可辨的域边界。通过KNN多数投票进行平滑处理后,预测性能得到进一步改善。更重要的是,SpaTM-S推断的主题混合物呈现出与真实层区域高度一致的空间主题模式,这些模式在样本内和跨样本场景中均保持稳定,证明了所学空间信息主题的泛化能力。

空间表达校正提升基因模式可视性

空间转录组数据中的稀疏性和噪声问题常常影响空间基因表达模式的检测。研究人员开发了一种基于SpaTM-S主题混合物的基因表达校正方法,通过矩阵分解技术重构spot-by-gene表达矩阵。经过校正的表达谱显著提高了层标记基因的空间自相关性(Moran's I),相较于未校正数据展现出更清晰的空间模式。
校正后的表达谱与原始计数保持高度相关性,表明去噪后的表达具有生物学相关性。在与SpaIM基因填补方法的比较中,SpaTM表现出相当的性能,但其关键优势在于可解释性——用户能够根据训练过程中推断的主题追踪哪些基因参与了缺失基因的填补过程,为评估基因共表达提供了可能。

关系主题模型实现精准空间聚类

SpaTM-R通过构建spot或cell邻近度矩阵来预测空间邻域关系。在四种测试场景下,SpaTM-R在邻域预测任务中表现出色,AUROC评估指标显著优于基于基础SpaTM和泊松NMF模型的逻辑回归方法。分析显示,SpaTM-R更倾向于预测同一区域内的spot对为邻居,而非跨区域对,表明其预测捕捉的是功能相似性而非单纯的空间接近性。
将SpaTM-R应用于空间聚类任务,在12个DLPFC切片上的评估显示其与SpaGCN、BayesSpace和stLearn等先进方法具有竞争性的调整兰德指数(ARI)性能。在涵盖多种空间技术(10x Visium、Stereo-seq、Barista-seq等)的34个样本的广泛基准测试中,SpaTM-R在10x Visium、StereoSeq和osmFISH技术上表现最佳,证明了其在spot水平、单细胞和成像基础空间技术中的广泛应用潜力。

多组件整合揭示空间亚区域特征

SpaTM框架的核心优势在于其能够无缝整合不同组件的分析结果。研究人员通过分析DLPFC切片,展示了SpaTM-S、SpaTM-R和SpaTM-G三者的协同作用。结果显示,SpaTM-S预测的白质区域实际上由SpaTM-R识别出的两个不同聚类组成:一个代表与层6接壤的白质区域,另一个代表核心白质区。细胞类型反卷积分析进一步揭示,核心白质区域具有更高的少突胶质细胞比例,而边界区域则出现了兴奋性神经元。
这一发现在同一患者的四个不同切片中均得到验证,表明白质区域确实存在转录异质性,这种异质性通过单一方法难以完全捕捉,而SpaTM的多任务整合框架为此类发现提供了有力支持。

重大抑郁障碍的空间导向分析

研究还展示了SpaTM在填补单细胞图谱空间信息方面的应用价值。通过对71例死后人类大脑DLPFC区域的重大抑郁障碍snRNA-seq数据集进行分析,研究人员使用预训练的SpaTM-S和SpaTM-R模型填补了空间标注和细胞邻近性信息。分析发现,MDD样本在细胞类型特异性层分布上表现出更高变异性,其中女性MDD病例在L1层有更高比例的少突胶质细胞,在L3层有更高比例的少突胶质细胞前体细胞,抑制性神经元从L3层向L2层转移。这些发现为理解MDD的空间维度提供了新视角。

乳腺癌肿瘤微环境表征

在乳腺癌导管癌样本分析中,SpaTM-R成功识别出肿瘤和肿瘤微环境亚区,并直接提供了与每个区域相关的基因程序。与传统方法需要下游差异基因表达分析不同,SpaTM-R通过其推断的主题自动学习簇相关标记。研究识别出代表非浸润性和浸润性肿瘤区域的主题,以及不同的微环境 compartment。基因共表达分析进一步揭示了肿瘤区域与其微环境之间的独特相互作用模式,为理解肿瘤异质性提供了新见解。
研究结论表明,SpaTM作为一个多用途贝叶斯主题模型框架,通过整合引导、监督和关系主题模型组件,为空间转录组学分析提供了统一且可解释的解决方案。该框架不仅在各种任务中表现出竞争性性能,更重要的是其能够避免传统分析中常见的"双重 dipping"问题,直接在学习空间域的同时推断基因程序,确保了结果的可靠性。
SpaTM的重要意义在于它为空间转录组学分析提供了一个功能全面、结果可解释且易于整合的分析框架。随着空间转录组学数据的不断积累和复杂化,此类能够统一处理多任务并保证结果一致性的工具将变得越来越重要。未来,SpaTM可进一步扩展用于推断细胞间通信、整合多组学数据,为理解复杂生物系统的空间组织提供更强大的分析能力。
该研究的开源实现为领域内研究人员提供了可直接使用的工具,有望促进空间转录组学分析方法的标准化和结果的可比性,推动这一重要领域向更加统一和可解释的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号