
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:如何将空间转录组学与组织形态学相结合
【字体: 大 中 小 】 时间:2025年05月14日 来源:Nature Communications 14.7
编辑推荐:
近日,瑞典乌普萨拉大学的研究人员发表综述文章,介绍了对此类组合方法进行分类的框架,其重点是将形态学特征转化或整合到空间转录组学中。他们还探讨了这一新兴领域的未来发展方向。
空间转录组学(spatial transcriptomics)通过保留基因表达模式的空间背景,改变了人们对组织结构的了解。在空间转录组学出现之前,单细胞组学由于依赖组织解离,往往会丢失空间信息 。而现在,通过保留细胞的空间背景,科学家们可以更全面地观察细胞的各种特性,从而对疾病的分子机制有更深入的认识。
与此同时,人工智能和机器学习在图像处理领域取得了显著进展,深度学习算法、卷积神经网络(CNN)和图像分割技术等,让人们能够更精确地分析生物组织图像。将空间转录组学的基因表达信息与成像获得的形态学特征相结合,有望更全面地了解组织结构。不过,要同时利用好空间转录组学和成像数据这两种不同的高维度数据并非易事。
近日,瑞典乌普萨拉大学的研究人员在《Nature Communications》杂志上发表综述文章,介绍了对此类组合方法进行分类的框架,其重点是将形态学特征转化或整合到空间转录组学中。他们还探讨了这一新兴领域的未来发展方向。
转化-整合框架
为了更有效地利用这两种数据,本文提出了一种转化-整合框架。空间转录组学,无论是基于成像还是测序的方法,最终都会产生带有基因表达信息的空间位置网格。而组织形态学通常会在成像前利用H&E或DAPI等染色剂进行增强,从而引入额外的信息。
在这个框架中,根据形态学特征与基因表达的相关性以及它们所包含的相关信息,可以将特征分为四个象限。
第I象限(转化)中的形态学特征包含大量相关信息,且与基因表达共享大量信息,这类特征特别适合基因表达预测,比如生成超分辨率图谱,或者从临床H&E染色样本中推断遗传信息,且无需额外成本。第II象限(整合)中的形态学特征包含大量相关信息,但与基因表达不共享信息,这些特征适用于空间域鉴定。
第III象限(噪声)中的形态学特征既不包含相关信息,也不与基因表达共享信息,这些特征捕获非相关变化,不能用于联合分析。第IV象限(高估)中的形态学特征不包含相关信息,但与基因表达共享信息,可能会导致在转化等任务中高估预测能力 。
形态学转化用于基因表达预测
形态学转化主要是识别在空间上与基因表达模式相关的形态学特征,其核心应用是基因表达预测。研究人员尝试利用深度学习模型,从H&E图像中预测10x Genomics Visium等基于测序的空间转录组学表达。
在训练基因的选择上,目前主要有三种方法。一是选择数据集中平均表达量最高的基因,像ST-Net和BrST-Net就采用了这种方法,其原理是这些基因可能更稳定,空间模式更清晰 。
二是选择在不同空间位置变化最大的基因,旨在增强模型学习多样化模式的能力,HisToGene、Hist2ST等方法采用了这一策略 。三是基于先验生物学知识或特定研究目标手动选择基因,确保所选基因具有生物学意义,DeepSpaCE、STimage等使用了这种方法 。
在模型选择上,早期主要依赖CNN,因为它在图像分析方面表现出色,能通过卷积层捕获空间层次结构。例如,ST-Net使用DenseNet-121,DeepSpaCE使用VGG16,BrST-Net则比较了多种CNN架构后确定EfficientNet性能最佳 。
之后,基于Transformer的模型逐渐兴起,它擅长捕获数据中的长程依赖关系。HisToGene率先采用视觉Transformer(ViT),能够有效捕获整体背景信息 。此外,图神经网络(GNN)也被引入,用于学习空间模式,SEPAL、THItoGene等方法都结合了GNN的优势 。
在训练和测试分割方面,由于数据集通常较小,常用的方法有留一法(leave-one-out)交叉验证和k-fold交叉验证。留一法是每次将一个样本作为测试集,其余样本作为训练集;k-fold则是将数据集分为k个子集,轮流将一个子集作为测试集,其余子集作为训练集 。还有一些方法采用传统的训练-验证-测试方式。
形态学整合用于空间域识别
形态学整合旨在识别在空间上与基因表达模式互补的形态学特征,主要应用于空间域识别。SpaCell是最早将形态学与空间基因表达相结合的方法之一,它通过预训练的CNN提取形态学特征,然后与基因表达相结合得到联合潜在空间,用于聚类和域识别 。
Hu等人提出的SpaGCN是一种基于图的方法,它将空间位置、基因表达和组织学相结合,使用RGB强度值作为形态学描述符,通过迭代聚类得到空间域 。尚未发表的conST则提出了一种对比方法,利用预训练的自动编码器获取组织学表示,再与基因表达相结合得到共同特征,并实现了一个可解释性模块 。
评估指标、数据集和基准
对于形态学转化,常用的评估指标有皮尔逊相关系数(PCC)、平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)等 。PCC用于衡量观察到的和预测的基因表达之间的线性关系;MAE衡量预测误差的平均幅度;MSE衡量误差平方的平均值;RMSE反映数据围绕最佳拟合线的集中程度 。
对于形态学整合,常用的评估指标包括调整兰德指数(ARI)、莫兰指数(Moran's I)和吉尔里指数(Geary's C)等 。ARI用于衡量两个聚类结果的相似性,校正了元素随机分组的情况;Moran's I和Geary's C用于评估基因表达的空间自相关性,前者量化整体空间自相关性,后者侧重于局部差异 。
在数据集方面,转化方法常用的数据集有乳腺癌数据集、人类鳞状细胞癌数据集等;整合方法常用的数据集有10x Visium小鼠脑样本和10x Visium人类背外侧前额叶皮层样本等 。
技术挑战与展望
在研究过程中,人们还面临诸多技术挑战。组织学图像数据存在固有的变化,不同实验室的染色方案、样本制备技术和成像条件差异会影响模型的泛化能力 。空间转录组学数据维度高,整合多种模态的数据会增加复杂性,通常需要使用降维技术 。此外,不同分辨率的形态学特征与空间转录组学数据的比对也存在困难,需要采用重缩放或插值等技术来解决 。
未来,基因表达预测的相关值还有提升空间,需要开发更针对临床重要基因的专用模型,确保在实际应用中的有效性 。在空间域识别方面,需要创建更相关且互补的形态学描述符,避免引入冗余或无关信息 。基础模型在组织病理学中的应用潜力巨大,但目前与空间转录组学的整合还比较有限,需要进一步探索如何更好地利用这些模型提升研究效果 。
此外,时间维度在形态学整合中的作用尚未得到充分研究,深入探讨基因表达与形态学在时间和空间上的关系,可能会为该领域带来新的突破 。这个转化-整合框架还可以扩展到多模态或多组学整合任务中,为研究生物过程和疾病机制提供更强大的工具 。
生物通微信公众号
知名企业招聘