编辑推荐:
为评估 Xenium 平台性能,研究人员分析 25 个数据集,优化分析流程,为相关研究提供指导。
探索 Xenium 原位数据的奥秘:从性能评估到最佳实践
在生命科学的微观世界里,空间转录组学技术正逐渐成为揭示细胞奥秘的关键钥匙。随着多种商业化空间转录组学技术的涌现,如何选择合适的平台并制定有效的分析指南变得至关重要。Xenium 原位平台作为 10x Genomics 公司推出的新型空间转录组学产品,能够在亚细胞分辨率下绘制数百个基因的图谱,展现了强大的技术潜力。然而,在其广泛应用之前,全面且独立的评估必不可少。为了解开 Xenium 平台的性能之谜,来自瑞典斯德哥尔摩大学等多个机构的研究人员开展了深入研究,相关成果发表在《Nature Methods》上。
研究背景
空间转录组学技术通过基于荧光显微镜的成像方法,实现对单个 RNA 分子的靶向和高度多重检测,根据化学原理可分为基于原位杂交(ISH)和基于原位测序(ISS)的技术。Xenium 平台基于 ISS 技术,声称能在亚细胞分辨率下生成数百个基因的图谱。尽管 10x Genomics 已利用 Xenium 数据集展示了该技术的潜力并进行了基准测试,但仍缺乏全面的独立评估。此外,面对众多的空间转录组学技术和商业平台,研究人员急需相关的建议和分析指南,以更好地利用这些技术探索生物学问题。
研究方法
研究人员收集了 25 个 Xenium 数据集,这些数据集来自多种组织和物种,涵盖了 14 项实验,共包含 12 亿个读数和 600 万个细胞。为了评估 Xenium 平台与其他技术的差异,研究人员将其与 8 种其他空间分辨转录组学技术和商业平台进行比较。在细胞分割方面,对多种开源计算工具进行基准测试,包括 Baysor、Cellpose 等;在数据处理和分析方面,使用 Scanpy 等工具进行数据预处理、聚类分析等操作;在评估基因检测效率和特异性时,通过与参考单细胞 RNA 测序(scRNA-seq)数据集比较,计算检测效率和负共表达纯度(NCP)等指标。
研究结果
- Xenium 数据集提供高质量组织群体数据:Xenium 数据集涵盖多种样本类型,每个样本检测的基因数量在 210 - 392 个之间。平均 81% 的读数质量较高(qv > 20),每个细胞平均有 186.6 个读数,76.8% 的读数被分配到细胞中,且新鲜冷冻(FF)和福尔马林固定石蜡包埋(FFPE)切片之间无明显差异。仅有 0.21% 的细胞读数少于 10 个被排除分析,表明 Xenium 适用于评估组织中的细胞类型频率。
- Xenium 可重复识别细胞群体:通过对 7 个小鼠大脑相邻全冠状数据集的分析,Xenium 的细胞识别算法能够识别出 50 种细胞类型,并创建细胞类型图谱。独立实验中使用相同探针组的相似样本,基因特异性检测效率、分散度和每个细胞的读数具有很强的相似性,细胞类型比例在不同实验中保持一致,仅在较少丰度的群体中因样本生物学差异存在显著差异。
- Xenium 保留关键 3D 和亚细胞信息:利用无分割模型分析 Xenium 数据,发现其能够识别 44 种细胞类型特异性簇,并将核外读数与特定特征联系起来。通过分析还发现了一些在细胞核和细胞质中富集的 mRNA,表明 Xenium 的信号密度有助于原位识别亚细胞结构,强调了将空间数据集解释为 3D 亚细胞图谱的价值。
- Xenium 检测效率与 ISH 相当:与其他空间转录组学平台对比,Xenium 是最灵敏的基于 ISS 的技术,其检测效率与基于 ISH 的技术如 MERSCOPE 和 Molecular Cartography 相似,比 scRNA-seq(Chromium v2)高 1.2 - 1.5 倍。在特异性方面,Xenium 的特异性略低于其他商业平台,但高于 CosMx。此外,不同技术在检测效率、特异性和亚细胞分布等方面存在差异。
- 核扩张影响细胞类型表达谱:Xenium 默认的核分割后半径扩张为 15μm,研究发现理想的细胞扩张距离平均为 5.64μm,但不同细胞类型的最佳扩张距离不同。基于核分割后刚性扩张的分割策略可能不是最佳解决方案,而 Baysor 与 Cellpose 结合的分割策略表现最佳,能有效定义单个细胞,且与 Xenium 默认核分割定义的细胞群体相似。
- 预处理 Xenium 数据的最佳实践:研究人员模拟 Xenium 样数据集,确定了最佳预处理工作流程,包括基于文库大小的归一化(文库大小设为 100)、对数转换、缩放、构建 k 近邻图(使用所有主成分和 16 个邻居)和 Louvain 聚类。参数调整分析表明,归一化方法、文库大小、缩放和主成分数量是处理工作流程中的关键因素。
- Xenium 数据集空间可变特征的选择:比较多种识别空间可变特征(SVF)的算法,发现不同算法识别的 SVF 比例差异较大,但基因排名在大多数算法中具有较好的一致性。部分算法存在将噪声模式误判为空间变异性的问题,而识别高可变基因(HVF)的算法能将所有控制探针识别为非可变特征,同时检测到约 18% 的基因作为 HVF。
- Xenium 数据集基因插补工具的基准测试:对 7 种基因插补方法进行基准测试,发现 SpaGE 在预测准确性方面表现最佳,Seurat、Tangram 和 SpaOTsc 也有较高的性能。基因的表达水平和与其他基因的总体相关性与有效插补最相关,而转录本的亚细胞定位和变异性对插补性能影响不显著。
- 评估探索组织结构的计算工具:对 5 种域识别算法和 2 种简单方法进行基准测试,发现基于分箱的聚类预测的域与手动注释的相似性最高,优于更复杂的算法,但不同组织类型可能会影响各种方法的性能。
研究结论与讨论
本研究对 Xenium 原位数据集进行了独立的探索和评估,表明 Xenium 能够生成具有亚细胞分辨率的高度多重化空间基因表达图谱,有助于在原位轻松识别细胞群体。其检测效率与其他商业平台相当,且具有较高的特异性。然而,目前大多数新推出的空间转录组学平台在大多数指标上表现相似,未来需要进一步对技术方面进行独立比较,如成像时间、实验成本等。在数据处理方面,研究确定了一些关键的处理步骤,其中分割是最重要的步骤之一。Baysor 与 Cellpose 结合的分割策略优于其他策略,能够有效定义单个细胞。此外,本研究还为 Xenium 数据集的处理和分析提供了最佳实践方法,包括细胞分割、数据预处理、SVF 选择、基因插补和域识别等方面的建议,有助于 Xenium 用户最大化其数据价值。Xenium 代表了对其他基于 ISS 技术的总体改进,为探索空间生物学提供了有用的工具,但仍需进一步的研究和改进,以更好地满足生命科学研究的需求。