《PLOS Computational Biology》:Histology-informed spatial domain identification through multi-view graph convolutional networks
编辑推荐:
识别空间域(spatial domain)是空间转录组学(spatial transcriptomics, ST)中的关键步骤,但如何有效整合基因表达(gene expression)、空间位置(spatial location)及组织学图像(histolog
识别空间域(spatial domain)是空间转录组学(spatial transcriptomics, ST)中的关键步骤,但如何有效整合基因表达(gene expression)、空间位置(spatial location)及组织学图像(histological image)信息仍具挑战。研究人员提出STESH——一种结合表达(Expression)、空间(Spatial)和组织学(Histology)信息的空间转录组聚类方法。STESH利用卷积神经网络(Convolutional Neural Network, CNN)提取组织学特征,并构建表达卷积模块、组织学卷积模块、空间卷积模块及协同卷积模块(cooperative convolution module),组成带解码器(decoder)和注意力机制(attention mechanism)的多视图图卷积网络(multi-view Graph Convolutional Network, multi-view GCN)。研究人员在多种组织类型和技术平台上对STESH进行了评估,结果表明STESH持续优于十种现有先进(state-of-the-art)方法,在调整兰德指数(Adjusted Rand Index, ARI)、归一化互信息(Normalized Mutual Information, NMI)和Fowlkes–Mallows指数(Fowlkes–Mallows Index, FMI)上均取得最高聚类精度。
论文解读:基于组织学特征引导的多视图图卷积网络空间域识别——STESH方法
《PLOS Computational Biology》刊载的此文,针对空间转录组学(spatial transcriptomics, ST)中空间域(spatial domain)识别这一首要分析步骤展开研究。现有方法可分为仅基于基因表达的聚类、结合基因表达与空间位置的二维聚类、以及同时整合基因表达、空间位置与H&E组织学图像的三维聚类三类。仅基于表达的方法(如k-means、Louvain)忽略空间上下文导致域不连续;结合表达与空间的方法(如SEDR、STAGATE、GraphST、BayesSpace等)未利用高分辨率组织学图像信息;已有三维整合方法(如SpaGCN、stLearn、DeepST、TIST)或仅简单叠加图像特征、或将彩色图像灰度化丢失信息,未能使组织学信息深度参与图神经网络训练过程。为充分利用H&E图像中反映细胞形态和组织结构的细微信息,研究人员开发了STESH(Spatial Transcriptomics clustering method combining Expression, Spatial information and Histology),通过预训练CNN提取组织学纹理特征,分别构建表达图、空间图和形态学(morphology)图,采用四路GCN编码器(表达GCN、空间GCN、形态学GCN及协同学习三者的Co-GCN)配合注意力机制自适应融合多视图嵌入,最终经负二项(negative binomial, NB)解码重构表达矩阵并进行mclust聚类,在DLPFC人脑、乳腺癌Visium及小鼠嗅球Stereo-seq数据集上验证其优越性。
主要关键技术方法:
研究人员使用三个公开数据集——人背外侧前额叶皮层(dorsolateral prefrontal cortex, DLPFC) 10x Visium数据(12切片,含人工标注皮层分层)、人乳腺癌10x Visium数据(4898 spots,20层手工注释)及小鼠嗅球Stereo-seq数据(19109 spots)。方法流程为:(1)按spot坐标裁剪H&E图像为50×50像素块并缩放至224×224,用预训练ResNet50提取2048维特征后PCA降至50维;(2)基于欧氏距离构建空间邻接矩阵(半径r内为邻点),基于余弦距离构建表达k近邻(k-Nearest Neighbor, k-NN)邻接矩阵,基于Pearson相关构建形态学k-NN邻接矩阵,分别与基因表达特征矩阵组建成三张图——表达图(expression graph)、空间图(spatial graph)、形态学图(morphological graph);(3)多视图GCN编码器分别对三图做两层图卷积得到视点专属嵌入,另设协同卷积模块(Co-GCN)学习三模态内在关联嵌入;(4)引入自适应多头注意力机制(attention mechanism)学习四视点权重并加权融合得到最终低维潜嵌入(latent embedding);(5)负二项解码器(negative binomial decoder)重构基因表达矩阵,总损失由重构损失(reconstruction loss)、多视图一致性约束损失(consistency constraint loss)及图结构正则化约束损失(regularization constraint loss)组成;(6)对潜嵌入用R中mclust进行空间域聚类,Scanpy做UMAP可视化及PAGA轨迹推断(pseudotime trajectory inference)。
研究结果
Benchmarking STESH on DLPFC dataset(DLPFC数据集上的基准测试):
研究人员在12个人DLPFC切片上与Leiden及九种空间方法比较,STESH平均ARI达0.61、NMI 0.69、FMI 0.70,均超越对比方法。以五层结构清晰的切片#151672为例,STESH准确划分全部五层(ARI=0.81为已报道最高值),且仅有Spatial-MGCN与STESH将第3层正确识别为单一簇而非错误分裂。UMAP与PAGA轨迹显示STESH、GraphST和Spatial-MGCN均能捕获皮层分层顺序发育关系。七层复杂结构切片#151510中仅STESH与Spatial-MGCN精确重建与手工注释一致的分层,其余方法出现层1误分裂或边界不连续。差异表达基因(differentially expressed genes, DEGs)富集分析与真实标注偏差最小(R2=0.949),第6层(L6)正确富集轴突及突触后通路基因为已知神经生物学功能佐证。
Benchmarking STESH on a breast cancer dataset(乳腺癌数据集上的基准测试):
在乳腺癌Visium数据(限定识别20簇)中STESH获最高ARI=0.61、NMI=0.69、FMI=0.64。STESH与Leiden、stLearn、STAGATE正确将IDC_4识别为单簇。STESH进一步将IDC_3分为外环与内核、将IDC_2细分、将DCIS/LCIS_1细分,细胞解卷积(deconvolution)分析发现外环肿瘤相关巨噬细胞(tumor-associated macrophages, TAMs)比例显著高于内核,且外环经STESH再分为邻近健康组织的Cluster 16(高TAM%)和邻近瘤区的Cluster 17(TAM%近似Cluster 11),揭示传统注释未发现的肿瘤微环境异质性。
Benchmarking STESH on Stereo-seq dataset(Stereo-seq数据集上的基准测试):
在无逐点人工注释的小鼠嗅球Stereo-seq数据上,STESH、SEDR、STAGATE和Leiden均可见七层(嗅神经层ONL、肾小球层GL、外丛层EPL、僧帽细胞层MCL、内丛层IPL、颗粒细胞层GCL、嘴侧迁移流RMS)环状结构。STESH分层与各层标记基因(marker gene)吻合最好;UMAP与PAGA中SEDR、STAGATE、Leiden呈错误网络连接拓扑,STESH呈近线性顺序拓扑准确捕获ONL→RMS发育次序。
STESH operating parameter evaluation(STESH运行参数评估):
消融实验表明移除任一核心组件(形态学GCN、空间GCN、表达GCN、Co-GCN或注意力模块)使性能下降10%–80%(p<0.05),证明各模块必要。不同随机种子重复10次实验性能波动<7%且无统计学差异,表明算法稳定不敏感。关键超参数(损失权重α、β、γ,邻域大小k,空间半径r)扫描确认默认取值组合最优。资源统计给出内存、GPU显存及运行时间消耗。
讨论与结论(翻译):
本研究介绍STESH——一种利用多视图图卷积网络整合空间位置、RNA表达及组织学图像以生成低维潜嵌入并进行空间域识别的新方法。STESH分别基于组织切片图像、基因表达数据和空间位置信息计算不同相似性度量构建形态学、表达及空间邻接矩阵,并与基因表达特征共同组建三张图;通过多视图GCN分别学习各图专属嵌入,设计注意力机制自适应学习各嵌入重要性权重生成最终低维嵌入,据此聚类实现空间域识别。STESH增强了空间聚类、UMAP可视化和轨迹推断等下游分析,弥补了现有方法未能充分利用空间信息及匹配高分辨率组织学图像的不足,为具有相似基因表达模式与原位组织学特征的空间域精确分析提供了更有效手段。STESH的优势在于深度整合组织学图像信息——不是简单叠加而是基于H&E图像在spot间构建形态学依赖关系,并在模型训练全阶段持续深化该关系的考量,实现了更高程度的数据融合。准确识别空间域是描述基因组异质性、细胞互作及各类空间转录组下游分析的基础,STESH为此提供了新平台与工具。