编辑推荐:
本文介绍了 “空间转录组成像框架”(STIM),它基于 ImgLib2 和 BigDataViewer 框架,能实现高通量空间测序数据集的可视化、对齐等操作。通过对小鼠脑和人转移性淋巴结数据的分析,展现其强大功能,为生命科学研究提供有力工具。
一、研究背景
近年来,多项技术突破推动了高通量空间转录组学方法的快速发展。这些基于荧光 RNA 杂交或基于阵列的 RNA 捕获、条形码标记及后续测序技术,能在组织的天然空间环境中提供分子读数(通常在单细胞或亚细胞分辨率),这对理解健康和疾病状态下的细胞相互作用至关重要。因此,空间转录组数据集的产生对基础生命科学研究和临床 / 医学应用意义重大。
然而,处理和分析这些数据集面临诸多挑战。首先是数据量问题,单组织切片的空间测序就会产生数 GB 数据,且预计还会增加。其次是异质性,不同数据集在捕获的基因和转录本数量、空间分辨率以及组织结构上差异很大。再者,与图像数据不同,空间转录组数据通常是不规则间隔的。另外,还存在三维(3D)整合难题,即组织切片数据需整合到 3D 分子地图中;同时,也需要方便地共享和交互式查询空间转录组数据,并且要有灵活且长期可用的开源、社区化方法。
尽管已有多种方法用于可视化、处理和对齐空间转录组数据,但各有缺陷。本文提出的 “空间转录组成像框架”(STIM),旨在利用计算机视觉领域的成熟方法,应对空间转录组学领域面临的挑战。
二、STIM 框架介绍
STIM 是一个基于 ImgLib2 和 BigDataViewer(BDV)的计算、可扩展且可扩展的工具包。ImgLib2 将图像定义为一个函数f,它将n维空间Rn中的坐标C映射到一个值T,即f:C→T,C?Rn。这一特性使得 ImgLib2 天然支持规则和不规则间隔的数据集,其通用的、接口驱动的设计对数据集大小(目前最大支持 4,096 PB)、维度或数据类型没有限制,许多大型生物图像数据集都是用 ImgLib2、基于 ImgLib2 的 BDV 和 N5(与 ZARR 兼容)文件格式重建的。
STIM 基于这些框架,为空间转录组数据提供随机、快速且可选分布式的读写访问、交互式可视化和高效处理。它直接支持 AnnData 格式,也可将标准化文本或逗号分隔格式的输入数据集重新保存到 N5/ZARR 容器中,还可选择对数据进行对数归一化处理。通过 ImgLib2 缓存框架,能快速且高效地分块加载坐标和基因表达数据,并可作为值或渲染图像访问。
为了实现更逼真的任意分辨率渲染,STIM 基于高斯分布实现了一种渲染方法。同时,针对空间图像滤波在处理不规则间隔数据时因缺乏高效k近邻搜索而难以广泛应用的问题,STIM 添加了一个基于 ImgLib2 和 kd 树的通用框架,用于对不规则间隔数据应用滤波器(如均值、中值或高斯滤波器),且该框架易于扩展。所有操作都通过 BDV 实现虚拟交互访问和数据渲染。
三、STIM 的功能展示
- 数据滤波和平滑:STIM 可用于对数据进行滤波和平滑处理,例如应用中值滤波器或其他滤波器。这有助于去除噪声,强调数据中的较大结构,使数据特征更加明显。
- 数据集对齐:STIM 采用经过实践检验的图像配准技术,对齐来自同一组织连续切片的数据集。研究人员开发了一个基于 BDV 的用户友好型交互式图形用户界面(GUI),可自动或手动对齐组织切片对。在对齐过程中,先对连续的脑海马体切片应用尺度不变特征变换(SIFT)结合随机抽样一致算法(RANSAC),在渲染的图像对上识别对应点,然后通过全局最小化所有对应图像点之间的距离,为每个切片生成一个 2D 变换。此外,还可选择使用迭代最近点(ICP)算法对测序点的位置进行优化,最终得到一个正则化的仿射变换模型,并存储在 N5/ZARR 容器中。通过这种方式,STIM 能够构建 3D 分子地图,如对人类转移性淋巴结数据集的处理,实现了 3D 虚拟组织块的生成,并从数据中获得 3D 特定的见解。
- 交互式可视化和探索:STIM 通过 BDV 提供 2D 和 3D 数据的交互式可视化和探索功能,可同时显示元数据(如细胞类型注释)和每个空间单元的基因表达。这使得研究人员能够直观地观察基因表达在空间上的分布情况,以及不同细胞类型与基因表达之间的关系。
- 机器学习分割和 3D 渲染:STIM 展示了现有机器学习分割方法可应用于空间转录组数据,并强调了现有 3D 渲染方法的适用性。例如,使用随机森林(Random Forests)等基于图像的机器学习解决方案,可对亚细胞、高分辨率空间转录组数据集进行对象分割。对于未来更大的数据集,还可使用 StarDist 或 CellPose 等方法。通过 3D 渲染,能够更直观地呈现数据的 3D 结构,如对对齐后的 Slide - seq 数据集进行 3D 渲染,可清晰展示不同基因在 3D 空间中的表达分布。
四、STIM 的优势
- 跨技术适用性:由于 SIFT 的鲁棒性,STIM 的对齐管道可应用于不同技术产生的数据集。无论是小鼠脑切片、人类转移性淋巴结切片还是人类肺癌组织切片,STIM 都能有效地进行处理和对齐,增强不同切片之间的信息流动,丰富分子读数。
- 对齐质量和灵活性:STIM 的对齐管道基于线性变换(通常是用刚性模型正则化的仿射变换模型),可使用 RANSAC 进行稳健的模型估计,能判断是否实现了正确对齐。对于潜在的对齐间隙,可通过交互式手动对齐功能进行弥补。若需要进一步提高对齐质量,虽可采用非刚性配准算法(如 bUnwarpJ),但需注意非刚性变换可能会使样本发生不自然变形,因此需要进行有意义且精心设计的正则化。目前,针对空间转录组数据(ST data)的非刚性对齐正则化研究尚处于起步阶段。
- 互操作性和可访问性:STIM 是开源的,利用了围绕 ImgLib2 构建的庞大 Java 社区。为了增强互操作性,方便使用 Python 接口的用户,STIM 增加了对流行的 AnnData 格式的支持,可无缝访问 AnnData 和 N5/ZARR 格式的数据,并转移底层样本元数据,便于下游分析。此外,STIM 可通过流行的 Conda 包装环境在 Linux、MacOS 和 Windows 上安装。
- 性能优势:与其他空间测序数据对齐软件包相比,STIM 具有明显优势。例如,概率对齐空间转录组实验(PASTE)在处理大尺寸数据集时存在局限性,且不支持部分对齐;PASTE2 虽然支持部分对齐,但最优传输框架在处理数百万细胞的数据集时,在时间和内存使用上不可扩展,计算复杂度与测序位置数量呈二次方关系。Andersson 等人的方法依赖手动地标进行对齐,且仅支持刚性变换模型;Jones 等人和 Qiu 等人的方法需要近似初始对齐,且计算复杂度较高。Clifton 等人的方法需要手动选择对应点进行初始化,且不提供跨切片的全局优化。其他一些方法依赖于高级特征(如细胞类型或空间区域)的对齐,需要在对齐前对单个切片进行大量分析。而 STIM 在图像分析领域经过数十年的实践检验,在多 TB 图像上工作可靠且快速,其复杂度取决于渲染图像的大小,对于空间转录组数据,渲染图像甚至可以很小。将测序位置转换为图像的复杂度与 kd 树查找相当,为O(logn)。通过使用 RANSAC 进行成对匹配、全局优化并去除所有成对结果中的异常值,以及在可扩展框架 ImgLib2 和 BigDataViewer 中实现,确保了 STIM 识别的对齐结果可靠,并且能够适应未来更大的数据集。
通过对包含 19 个切片的转移性淋巴结数据集进行定量评估,发现 STIM 的自动对齐质量与人类手动对齐相当,且其参数对对齐质量的影响极小。而其他公开可用的方法,如 SPACEL 和 Morpho,虽然在某些方面表现出一定的性能,但在最终的 3D 重建中存在误差积累,导致切片组之间出现显著的旋转错位。此外,SPACEL 还需要细胞类型注释作为输入,而 STIM 可直接处理原始数据。
五、研究总结与展望
STIM 作为一个高效、可扩展的框架,实现了大规模空间转录组数据集的分布式访问、处理和可视化。它为不规则间隔的数据提供了空间滤波功能,可直接访问数据值或渲染为图像,在计算机视觉和基因组学领域之间架起了一座桥梁。通过开发自动对齐空间转录组切片数据集的工作流程,以及利用现有机器学习解决方案进行对象分割,STIM 为生命科学研究提供了强大的工具。
作为一个开源框架,STIM 在 GitHub 上提供了 Java、Python 和命令行接口,具有高度的可扩展性。这使得研究社区能够进一步整合图像分析和基因组学领域的资源和方法,推动相关研究的发展。未来,随着空间转录组学技术的不断发展和数据集规模的不断扩大,STIM 有望在更复杂的研究场景中发挥重要作用,为深入理解细胞间相互作用、疾病发生机制等提供更有力的支持。