编辑推荐:
为评估空间转录组(SRT)模拟方法,研究人员开展多任务基准测试,揭示模型性能差异,为方法选择提供指引。
空间转录组学(Spatial Transcriptomics,ST)技术就像一把神奇的钥匙,开启了分子生物学领域的新大门。它能在组织样本的空间背景下绘制基因表达数据的 “地图”,帮助科学家们了解基因在不同空间位置的活动情况。然而,在很多时候,像差异表达或差异基因丰度这些 “真相”,很难通过实验直接获得。于是,模拟技术应运而生,它提供了一个可控的环境,让研究人员能够系统地评估算法。空间模拟在验证 CARD、stLearn 等计算工具的有效性方面发挥着重要作用。
不过,目前的空间模拟领域存在一个大问题:缺乏一个系统的评估框架。不同的模拟方法质量参差不齐,研究人员很难判断哪种方法更适合自己的研究。为了解决这个问题,来自悉尼大学(The University of Sydney)等机构的研究人员开展了一项重要研究,相关成果发表在《Genome Biology》上。
研究人员提出了 SpatialSimBench,这是一个全面的评估框架,它利用 10 个不同的 STR 数据集,对 13 种模拟方法进行了评估。同时,研究人员还开发了 simAdaptor 工具,这个工具可以将空间变量融入单细胞模拟器,使它们能够模拟空间数据。通过 SpatialSimBench 框架,研究人员可以对模拟方法进行多方面的评估,包括数据属性估计、各种下游分析以及可扩展性,总共使用了 35 个指标。
在研究过程中,研究人员用到了多个关键技术方法。首先,他们收集了 10 个空间转录组数据集和参考单细胞 RNA 测序(scRNA-seq)数据集,并进行了数据预处理,包括归一化和基因筛选等操作 。其次,利用 simAdaptor 将空间变量融入单细胞模拟器,通过空间聚类确定相似表达区域,再对每个区域进行模拟。最后,使用多种评估指标,如核密度估计(KDE)测试统计量、调整兰德指数(ARI)、归一化互信息(NMI)等,从数据属性、下游分析任务等多个方面对模拟方法进行评估。
下面来看看具体的研究结果:
- SpatialSimBench 框架全面评估模拟方法:该框架不仅评估了最近发表的空间感知模拟方法,还对比了使用 simAdaptor 和未使用 simAdaptor 的单细胞模拟方法。通过分析 10 个空间数据集、13 种模拟方法和 35 个指标,研究人员总共生成了 4550 个结果。在评估数据属性时,从 spot-level、gene-level 和 spatial-level 多个层面进行考量,利用密度图和 KDE 测试统计量评估模拟数据与真实数据的相似性。在下游分析任务评估中,关注空间聚类、细胞类型反卷积、空间可变基因识别和空间互相关等任务,以判断模拟数据在后续分析中的真实性。
- 利用现有 scRNA-seq 模拟生成空间数据:研究人员开发的 simAdaptor 方法,通过空间聚类确定区域,再用单细胞模拟器模拟各个区域的数据。以成年小鼠嗅球空间基因表达数据为例,实验结果显示,scDesign2、SPARsim 和 ZINB-WaVE 等单细胞模拟器在基因水平和 spot 水平的模拟数据与真实数据分布相似。在空间水平评估中,scDesign2、SPARsim 和 Splatter 表现出色。同时,simAdaptor 方法还能提高空间模拟器在某些性能指标上的表现,如 spot-wise 缩放均值和方差。
- 模拟方法在不同指标上表现各异:对 13 种模拟方法的分析发现,不同方法在数据属性和可扩展性评估指标上表现不同。在基因水平和 spot 水平数据分布的捕捉上,scDesign2、ZINB-WaVE 和 SPARsim 等单细胞模拟器与 scDesign3 和 SRTsim 等空间模拟器表现相当,但 SRTsim 在空间指标上表现突出。在可扩展性方面,大多数方法表现良好,但计算效率和建模复杂性之间存在权衡,如 ZINB-WaVE 运行速度快但内存需求高,scDesign2 内存使用效率高但运行时间较长。
- 下游分析任务中各方法表现有差异:在空间聚类、细胞类型反卷积、空间可变基因识别和空间互相关等下游分析任务中,不同方法的表现也有所不同。总体来说,大多数单细胞模拟和空间模拟器在这些任务中表现良好。例如,SPARsim、Splatter、SymSim 和 SRTsim 在空间聚类性能上表现出色;SRTsim 和 scDesign3 在细胞类型反卷积任务中表现更优;ZINB-WaVE、SRTsim 和 scDesign3 在空间可变基因识别任务中表现突出;SRTsim 和 scDesign3 在空间互相关任务中表现显著优于其他模拟器。
- 模型分布和数据集特征影响模型性能:研究人员发现,模型的分布假设对模型估计有影响。对 scDesign3 应用不同分布(高斯、负二项、泊松)时,负二项分布表现最佳。同时,不同数据集对模型性能也有影响,scDesign3(nb)、SRTsim 和 scDesign2 在不同数据集的评估中表现出较高的一致性,而其他一些模拟器的性能则受到数据集特征的显著影响。
在研究结论和讨论部分,研究人员指出,SpatialSimBench 为空间基因表达数据模拟方法的评估提供了一个全面的框架。simAdaptor 方法能够利用现有 scRNA-seq 模拟器生成空间数据,并提升空间模拟器的性能。研究结果还表明,在选择模拟方法时,需要考虑分布假设和数据集特征等因素。此外,研究人员还探讨了未来方法开发的方向,是改进现有单细胞模拟器还是设计全新的空间数据模拟结构,这为后续研究提供了思路。这项研究对于生物学家分析空间转录组数据以及方法开发者改进和创新模拟方法都具有重要的参考价值,推动了空间转录组学领域的发展。