
-
生物通官微
陪你抓住生命科技
跳动的脉搏
深度学习框架GHIST实现组织学图像到单细胞空间基因表达的高精度预测
【字体: 大 中 小 】 时间:2025年09月16日 来源:Nature Methods 32.1
编辑推荐:
本研究针对空间转录组技术(SRT)成本高、分辨率有限的问题,开发了深度学习框架GHIST,通过整合组织学图像与亚细胞空间转录组(SST)数据,实现了从常规H&E染色图像预测单细胞级空间基因表达(SGE)。该多任务学习模型通过协同利用细胞类型、邻域组成、核形态和基因表达等多层次生物学信息,在乳腺癌等多种癌症数据中展现出卓越性能,为大规模空间组学分析提供了经济高效的解决方案。
在生物医学研究领域,空间转录组技术(Spatially Resolved Transcriptomics, SRT)正以前所未有的分辨率揭示组织微环境中基因表达的时空特征。然而,这项革命性技术面临两大瓶颈:动辄上万美元的单样本检测成本,以及传统spot-based平台(如10x Visium)有限的单细胞分辨率。与此同时,医院病理科每天产生海量的H&E染色切片——这些常规检查虽蕴含丰富空间信息,却难以直接转化为分子层面的认知。如何架起组织形态学与空间组学之间的桥梁,成为计算病理学亟待突破的科学难题。
《Nature Methods》最新发表的GHIST框架给出了创新解决方案。这项由Xiaohang Fu和Yue Cao等学者领衔的研究,开发了首个能从H&E图像直接预测单细胞空间基因表达的深度学习系统。研究团队巧妙运用多任务学习策略,通过整合四个关键生物学信息层——细胞核形态学特征、细胞类型标记、邻域组成模式和基因表达谱,使模型能够捕捉组织切片中隐含的分子特征。特别值得注意的是,GHIST无需昂贵的空间转录组数据作为预测输入,仅需常规病理切片即可生成单细胞级表达谱,这为挖掘现有病理档案的分子信息提供了全新途径。
关键技术方法包括:1)基于Hover-Net的细胞核分割与分类;2)利用10x Xenium等亚细胞分辨率SST数据构建训练集;3)多任务学习框架整合细胞类型预测、邻域组成分析等辅助任务;4)采用TCGA-BRCA等公开数据集进行跨平台验证;5)开发空间特征量化方法评估基因表达模式。研究涉及乳腺癌、肺腺癌和黑色素瘤等多种癌症类型,验证样本包括92例TCGA HER2+乳腺癌和44例内部队列病例。
GHIST框架设计
研究团队将GHIST设计为端到端的多任务学习系统,其核心创新在于建立了H&E图像特征与单细胞基因表达的映射关系。如图1所示,模型通过UNet3+架构提取核形态特征,同时预测细胞类型分布和局部邻域组成。特别设计的损失函数确保预测的表达谱保持生物学合理性——例如,上皮细胞标志物EPCAM的表达必须与细胞类型预测结果一致。这种多层次监督使模型能区分形态相似但分子特征迥异的细胞类型,如B细胞与T细胞。

单细胞级表达预测验证
在乳腺癌Xenium数据集上,GHIST预测的细胞类型组成与真实数据高度吻合(准确率0.66-0.75)。关键基因如SCD(r=0.74)、FASN(r=0.77)等显示出强相关性,且空间变异模式被准确保留(图2)。模型在肺腺癌和黑色素瘤数据中也表现出色,证实其跨组织适用性。值得注意的是,GHIST能有效区分生物学相关基因与噪声——空间变异基因(SVGs)的中位相关系数达0.6-0.7,而非SVGs接近0,表明预测具有生物学特异性。

spot-based数据性能比较
为评估通用性,研究团队在HER2ST数据集上对比了GHIST与现有spot-based方法(ST-Net、HisToGene等)。如图3所示,GHIST在Pearson相关系数(PCC)和结构相似性(SSIM)上均显著优于同类方法。更重要的是,基于GHIST预测构建的生存模型C-index达0.57,优于RNA-seq基线(0.55),且能显著区分高低风险组(P=0.017),展现临床转化潜力。
TCGA多组学整合应用
研究团队将GHIST应用于92例TCGA HER2+乳腺癌样本,成功为这些已有基因组、转录组数据补充了空间维度信息。分析发现:1)ER+/PR+亚群中,巨噬细胞高表达LPL、CAVIN2等基因的患者预后更好;2)染色体8q24和17q11-21区域的拷贝数变异与基因空间模式改变显著相关,其中TOP2A拷贝数变异展现出强空间调控效应。这些发现证实GHIST能解锁传统组学无法检测的空间生物学特征。
讨论与展望
GHIST的创新价值体现在三个维度:方法论上,首次实现单细胞SGE预测;技术上,突破spot-based方法的精度限制;应用上,为TCGA等大型生物库添加空间组学维度。研究同时指出当前局限:1)H&E染色质量影响预测精度;2)基因panel设计限制细胞亚型分辨;3)训练数据规模有待扩大。随着空间转录组成本降低和数据积累,GHIST有望成为连接病理形态与分子机制的关键工具,推动精准医学发展。
这项研究的意义不仅在于技术突破,更开创了"数字空间组学"新范式——通过计算手段扩展现有生物医学数据的维度。正如作者强调,GHIST使研究人员能够"在开展昂贵实验前进行数字预实验",大幅降低探索性研究成本。在肿瘤异质性分析、微环境互作研究和生物标志物发现等领域,这种经济高效的空间组学模拟方法将产生深远影响。
生物通微信公众号
知名企业招聘