STPath:整合空间转录组与全切片图像的生成式基础模型在数字病理学中的突破性应用
《npj Digital Medicine》:STPath: a generative foundation model for integrating spatial transcriptomics and whole-slide images
【字体:
大
中
小
】
时间:2025年11月16日
来源:npj Digital Medicine 15.1
编辑推荐:
本研究针对当前空间转录组学(ST)技术通量低、器官特异性强且难以推广的瓶颈,开发了STPath——首个基于大规模全切片图像(WSI)与ST配对数据预训练的生成式基础模型。该模型通过几何感知Transformer架构和定制化掩码策略,无需下游微调即可直接预测38,984个基因在17个器官中的表达,在23个数据集的6项任务(包括表达预测、空间聚类、生存预测等)中均显著优于现有方法,尤其将基因表达预测的Pearson相关性提升6.9%,为可扩展的ST病理学应用提供了通用解决方案。
在数字病理学迅猛发展的今天,空间转录组学(Spatial Transcriptomics, ST)技术能够揭示组织微环境中基因表达的空间模式,为理解肿瘤异质性和细胞间相互作用提供了前所未有的视角。然而,传统ST技术受限于低通量和测序成本,且现有计算方法多依赖于器官特异性训练和数据集微调,导致模型泛化能力受限。这些瓶颈严重阻碍了ST技术在临床病理学中的规模化应用。
针对这一挑战,来自耶鲁大学和博德研究所的研究团队在《npj Digital Medicine》上发表了题为“STPath: a generative foundation model for integrating spatial transcriptomics and whole-slide images”的研究。该研究开发了STPath——首个基于生成式预训练的基础模型,能够直接从H&E染色的全切片图像(Whole-Slide Images, WSI)推断空间基因表达,无需针对特定数据集进行微调。
研究团队整合了HEST-1K和STImage-1k4m两个公共资源,构建了包含983张WSI、38,984个基因、17个器官和4种测序技术的大规模预训练数据集STImage-1k4m。STPath采用多模态融合策略,将每个组织点的视觉特征、基因表达、器官类型和测序技术信息编码为统一表示,并通过几何感知Transformer架构建模点间空间关系。模型通过掩码基因表达预测任务进行预训练,采用三种定制化采样策略:均匀滑动区域采样、Beta分布点掩码和平衡基因目标调度。
关键技术方法包括:1)使用病理学基础模型Gigapath提取点图像特征;2)构建包含38,984个基因的词汇表并采用多热向量编码;3)E(2)-等变自注意力机制实现坐标无关的空间建模;4)基于Beta(10,1)分布的高掩码率(约90%)训练策略。所有实验均基于来自TCGA、CPTAC等公共数据库的临床样本。
在HEST-Bench基准测试中,STPath在10个癌症数据集上无需微调即达到最高Pearson相关性(0.266),较次优模型提升34.4%。值得注意的是,模型展现出强大的上下文学习能力,仅需5%的提示点即可使CCRCC数据集相关性提升0.257。
在5个具有病理学家标注的数据集上,STPath预测的基因表达生成的Leiden聚类与真实标注具有最高一致性(AMI提升29.6%)。可视化结果显示模型能有效识别肿瘤核心、间质区等生物学相关区域。
针对6种已知癌症生物标志物(如GATA3、TP53等),STPath在4个数据集上相关性提升9.3%。差异表达分析进一步验证其能识别SPAG5、SLFN12等已知肿瘤标志物,且预测的标志物表达与突变状态显著相关(如乳腺癌TP53突变预测AUC=0.73)。
通过将预测的ST特征与视觉特征结合,STPath在弱监督生存预测任务中使UNI和Gigapath模型的C-index分别提升6.1%和5.6%;在基因突变预测中AUC平均提升5.3%。
研究结论表明,STPath通过生成式预训练实现了跨器官、基因和测序技术的通用ST推断能力。其创新性体现在:1)覆盖38,984个基因的广泛词汇表;2)E(2)-等变架构支持多尺度WSI编码;3)首次证明WSI-ST配对预训练的有效性。尽管在少数数据稀缺器官上性能仍有提升空间,但该工作为整合ST与数字病理学建立了新范式,为生物标志物发现和精准医疗提供了强大工具。
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号