TransST:基于迁移学习的空间转录组数据空间因子建模新方法

《BMC Bioinformatics》:TransST: transfer learning embedded spatial factor modeling of spatial transcriptomics data

【字体: 时间:2025年11月07日 来源:BMC Bioinformatics 3.3

编辑推荐:

  本研究针对空间转录组学(ST)数据分辨率低、测序深度不足导致生物信号提取困难的问题,提出了一种新型迁移学习框架TransST。该框架通过自适应整合外部单细胞RNA测序(scRNA-seq)或ST数据的细胞标签信息,显著提升了目标ST数据的细胞亚群识别精度和生物标志物检测能力。在乳腺癌、脑组织、小鼠胚胎和鳞状细胞癌等实际数据应用中,TransST成功识别出具有生物学意义的结构(如原位癌与浸润癌亚型、脂肪与结缔组织分离),并发现新的免疫相关细胞簇。研究表明,TransST为空间转录组学分析提供了更鲁棒、可解释的计算工具,对复杂疾病机制解析和精准医疗具有重要意义。

  
在生物医学研究领域,理解细胞在组织中的空间分布和功能异质性一直是科学家们探索的重点。单细胞RNA测序(scRNA-seq)技术能够高通量地揭示细胞间的基因表达差异,但在组织处理过程中不可避免地丢失了宝贵的空间位置信息。相反,免疫组织化学(IHC)和原位杂交等技术虽然能提供高分辨率的空间信息,却通常需要预先选定目标分子,难以进行大规模、无偏的探索性分析。空间转录组学(Spatial Transcriptomics, ST)技术的出现,巧妙地填补了这一空白,它能在保留组织切片中基因表达空间坐标的同时,获取完整的转录组信息,为在原生微环境中解析细胞的复杂相互作用提供了全景视角。
然而,空间转录组学技术目前仍面临一些挑战,例如相对较低的空间分辨率(一个测序点或“斑点”可能包含多个细胞的混合物)以及相对不足的测序深度,这使得从这些数据中可靠地提取真实的生物信号变得困难。传统的ST数据分析方法通常仅利用目标数据集本身的信息,而忽略了大量已公开的、具有相关生物学背景的外部数据(如带有细胞类型注释的scRNA-seq数据或其他ST数据集)中蕴含的宝贵知识。这在一定程度上限制了对目标数据中细胞异质性的精确解析和生物学意义的深入挖掘。
为了应对这一挑战,哥伦比亚大学的研究团队在《BMC Bioinformatics》上发表了题为“TransST: transfer learning embedded spatial factor modeling of spatial transcriptomics data”的研究论文。研究者们开发了一种名为TransST的新型迁移学习框架,旨在自适应地利用来自外部数据源(源数据)的细胞标签信息,来提升目标空间转录组数据中细胞水平异质性的推断能力。
关键技术方法概述
TransST框架包含三个核心步骤。首先,利用带有已知细胞类型标签的源数据(如scRNA-seq)通过概率线性降维(pLDR)模型学习基因表达与低维表示之间的关系,并得到因子载荷矩阵的估计。其次,通过自适应迁移学习步骤,将源数据中学到的载荷矩阵信息以惩罚项形式引导目标ST数据的降维,平衡源目标数据间的差异。最后,在低维表示上构建空间高斯混合模型(spGMM),并引入马尔可夫随机场(MRF)考虑空间邻域平滑性,实现细胞聚类。研究应用了来自公开数据库的多种真实数据,包括HER2阳性乳腺癌肿瘤、人背外侧前额叶皮层(DLPFC)、小鼠胚胎和皮肤鳞状细胞癌(cSCC)的ST和scRNA-seq数据,以验证方法的有效性。
研究结果
验证使用模拟数据
通过模拟研究系统评估了TransST的性能。结果表明,在已知真实聚类数目的情况下,TransST的调整兰德指数(ARI)随着空间信号强度β的增加而提升,且优于其他对比方法(如DR.SC、SC-MEB、spGMM等)。
在聚类数目未知时,TransST也能准确估计真实聚类数并保持最高ARI。此外,TransST能有效识别各细胞簇的特异性高表达基因(Differentially Expressed Genes, DEGs)。计算效率分析显示,TransST在处理数万个细胞/斑点时仍能保持高效(通常在1分钟内完成)。
TransST实现人HER2阳性肿瘤中scRNA-seq数据的精确空间映射
在HER2阳性乳腺癌肿瘤数据分析中,TransST成功识别出五个具有生物学意义的细胞簇,包括原位癌和浸润癌两个亚组,并且是唯一能将脂肪组织与结缔组织清晰分离的方法。
差异表达基因分析揭示了与免疫浸润(如CD2, LYZ, TRAC)、原位癌(如TFAP2B, TPD52)、浸润癌(如SLPI, SCGB3A1, KRT15)和脂肪组织(如PLIN4)相关的关键基因,其生物学意义得到了文献支持。
TransST实现DLPFC数据集脑层的精确识别
在分析人背外侧前额叶皮层(DLPFC)的10x Visium空间转录组数据时,以病理学家基于细胞结构学的手动注释为金标准,TransST在已知或未知真实层数的情况下,其ARI均优于其他方法。
空间热图显示TransST估计的层状结构与真实情况最为吻合。UMAP图显示不同样本的斑点能很好地混合,表明数据预处理的有效性。
TransST实现小鼠胚胎不同区域的精确识别
在对小鼠胚胎seqFISH数据的分析中,TransST识别出的空间区域与原始研究基于Gastrulation scRNA-seq图谱注释的“真实”区域高度一致。
例如,心肌细胞区域、颅侧中胚层(标记基因Tbx1)、生皮肌节(标记基因Aldh1a2)等均被准确识别。差异表达基因分析也揭示了多个在特定区域高表达且功能重要的基因(如Cdh1, Gata1, Tbx4, Lhx2)。
TransST实现鳞状细胞癌数据中不同区域和差异表达基因的识别
在分析皮肤鳞状细胞癌(cSCC)数据时,TransST识别出的空间模式与组织扫描图像匹配度较高。
通过差异表达基因分析,不仅确认了上皮细胞(KRT5, KRT14等)、髓系细胞(HLA-DPA1, HLA-DRA等)、成纤维细胞(COL7A1, COL4A2)等已知细胞类型,还发现了新的潜在细胞簇(如高表达C1QBP, FAM213A, SLC7A5的簇2,高表达DSC1, HOPX的免疫相关簇5,以及可能与预后相关的簇8),为cSCC研究提供了新的线索。
结论与意义
本研究提出的TransST框架,通过创新性地将迁移学习理念与空间转录组数据分析相结合,有效地利用了外部注释数据(如scRNA-seq)中的知识来增强目标ST数据的分析。其在模拟数据和多种真实数据集(涵盖人类癌症、脑组织、发育胚胎等)上的卓越表现表明,TransST在细胞亚群识别、空间结构解析和生物标志物发现方面均优于现有方法。其优势在于提高了细胞聚类和基因表达模式识别的鲁棒性和准确性,并能适应不同技术平台产生的数据。尽管TransST代表了空间转录组学数据分析的重要进展,研究者也指出未来仍存在优化空间,例如开发更有效的算法以应对源数据与目标数据分布差异显著的情况。总之,TransST为更深入地理解组织微环境中的细胞空间组织和功能相互作用提供了强大且可推广的计算工具,对生物医学发现和潜在临床应用具有重要价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号