编辑推荐:
空间转录组数据归一化面临挑战,研究人员开展 SpaNorm 方法的研究。结果显示,SpaNorm 能同时模拟文库大小效应和潜在生物学,在保留空间域信息和检测空间可变基因(SVGs)方面表现出色,有助于下游分析。
在生命科学研究的微观世界里,空间转录组学技术就像是一把神奇的钥匙,正逐渐打开我们理解多细胞生物系统的新大门。以往,我们对细胞在组织中的位置以及它们之间如何相互交流知之甚少,但有了基于斑点的空间转录组学技术(如 10x Genomics Visium )和亚细胞空间转录组学(SST)技术(像 10x Genomics Xenium 、NanoString CosMx 、BGI Stereo-seq 、Vizgen MERSCOPE ),科学家们能够在保留组织架构的情况下,深入探究细胞密度和组成的区域差异,这为解决以前难以触及的生物学问题带来了希望。
然而,这项技术在前进的道路上遇到了一块 “绊脚石”—— 不同区域的文库大小差异问题。想象一下,在分析细胞的基因表达数据时,由于技术原因导致不同区域捕获的分子数量不同,就好比每个区域的 “数据仓库” 大小不一样,这会严重干扰我们从数据中准确检测空间变异信号。这一问题对后续的聚类分析、区域分割以及空间可变基因(SVGs)的识别等关键步骤都产生了负面影响,使得研究结果的准确性大打折扣。
为了搬走这块 “绊脚石”,来自墨尔本大学、沃尔特和伊丽莎?霍尔医学研究所等机构的研究人员展开了一场意义重大的探索。他们致力于开发一种全新的方法,希望能够在消除文库大小差异影响的同时,最大程度保留生物学信息。经过不懈努力,他们成功开发出 SpaNorm 这一空间感知归一化方法,并将相关研究成果发表在《Genome Biology》上。这项研究成果意义非凡,它为空间转录组学研究提供了更精准、可靠的分析工具,有望推动该领域取得新的突破。
研究人员在开展这项研究时,用到了多个关键技术方法。在数据处理方面,他们使用了 6 个数据集(涵盖 27 个样本、4 种不同平台、3 种组织和 2 个物种),并根据数据特点进行了相应的预处理。对于不同类型的数据集,如网格数据集和分割数据集,分别采用了不同的处理方式 。在归一化方法上,将 SpaNorm 与无归一化、scran、sctransform、RUV-III-NB 和 Giotto 等方法进行对比。同时,运用多种评估方法,包括拟合负二项回归模型评估区域特异性文库大小效应、使用方差分析、模拟研究以及利用不同聚类算法进行空间域识别等,全面深入地探究 SpaNorm 的性能 。
下面我们来详细看看研究结果。
- 文库大小效应具有区域特异性:研究人员通过比较具有全局和区域特异性文库大小效应的模型,发现不同数据集里,具有区域特异性文库大小效应的基因比例差异较大,从约 25% 到近 100% 不等。像 Xenium 和 STOmics 数据集这类基因比例较高,Visium 数据集则较低。而且,通过敏感性分析进一步证实了这一结果的可靠性。
- SpaNorm 保留空间域信号:在对比 SpaNorm 与其他归一化方法保留空间域信息的能力时,研究人员用区域间与区域内变异的比率来衡量。结果发现 SpaNorm 保留的信号最强。在聚类实验中,SpaNorm 在多数样本中表现最佳,且在不同技术和聚类算法中性能较为平衡。同时,研究还发现 SpaNorm 中的参数 K 对性能有影响,适度增加 K 值有益,但超过一定程度效果会下降 。
- SpaNorm 改善 SVG 检测和一致性:利用模拟数据集和真实数据集,研究人员发现 SpaNorm 在检测 SVGs 方面表现出色。在模拟数据中,它能更准确地识别出真实的 SVGs,控制假发现率。在真实的 Xenium 小鼠脑数据集中,SpaNorm 能更好地检测出特定区域的标记基因,且相比原始数据,其归一化后得到的 SVG 排名更有意义。
- SpaNorm 增强低表达基因的生物学信号:在分析 10x Visium 人类 DLPFC 数据集时,研究人员发现 SpaNorm 能够检测到其他方法难以发现的低表达标记基因 MOBP 的信号,即使在文库大小较低的区域也能做到,这得益于其空间建模的特性,能够借鉴周围区域的信息 。
- SpaNorm 对基因采样、细胞分割和基于体积的归一化具有稳健性:通过模拟实验,研究人员发现基因采样策略对 SpaNorm 研究真实生物学效应的影响较小。同时,在评估细胞分割和不同归一化方式的影响时,发现使用文库大小或细胞体积 / 面积归一化对细胞类型比例的影响不大,说明 SpaNorm 在这些方面具有较好的稳健性。
在研究结论和讨论部分,SpaNorm 展现出了诸多优势。它能够有效识别文库大小效应和分布的区域特异性,在保留空间域信号用于聚类和检测真实 SVGs 方面优于其他归一化方法。而且,SpaNorm 的运行时间与细胞数量呈线性关系,对于不同类型的数据,无论是基于斑点的还是亚细胞的空间转录组数据都适用,尤其对 Xenium、STOmics 和 CosMx 等平台产生的数据优势更为明显。此外,它对细胞分割方式和数据是否基于网格处理均不敏感。
不过,研究人员也指出了 SpaNorm 存在的一些局限性。当对数文库大小的空间自相关性过高时,SpaNorm 分离相关变异的效果可能会受到影响,但在大多数数据集中,这种空间自相关性通常为中等水平。目前,SpaNorm 只能处理文库大小效应,研究团队正在努力扩展其功能,以应对如 “批次” 效应等其他不需要的变异。
总体而言,SpaNorm 的出现为空间转录组学研究带来了新的曙光。它解决了长期以来困扰研究人员的文库大小差异问题,让我们能够更准确地解析细胞的空间奥秘,为深入理解多细胞生物系统的运作机制奠定了坚实基础,也为未来生命科学和健康医学领域的相关研究开辟了更广阔的道路。