stPipe:用于多平台测序型空间转录组数据预处理的灵活高效R/Bioconductor流程
《NAR Genomics and Bioinformatics》:stPipe: a flexible and streamlined R/Bioconductor pipeline for preprocessing sequencing-based spatial transcriptomics data
【字体:
大
中
小
】
时间:2025年11月23日
来源:NAR Genomics and Bioinformatics 2.8
编辑推荐:
本刊推荐研究人员开发了stPipe这一R/Bioconductor流程,解决了不同测序型空间转录组(sST)平台数据预处理标准不统一的难题。该工具支持10x Visium、Slide-seq和Stereo-seq等多平台数据整合,通过模块化设计实现从FASTQ文件到空间基因计数矩阵的全流程处理,并生成标准化数据容器供下游分析。研究表明stPipe在跨平台基准测试中展现出与厂商工具相当的性能,为空间转录组研究方法标准化提供了重要技术支持。
随着空间转录组技术的迅猛发展,研究人员现在能够以前所未有的精度观察组织中基因表达的空间模式。然而,这种技术繁荣也带来了新的挑战——10x Visium、Slide-seq和Stereo-seq等主流平台各自采用不同的实验方法和数据分析流程,导致数据预处理标准不一,使得跨平台比较和基准研究变得异常困难。现有的解决方案往往局限于特定平台,如10x Genomics的Space Ranger或BGI的SAW流程,缺乏一个统一的、开放源代码的工具来处理不同平台产生的测序型空间转录组(sequencing-based spatial transcriptomics, sST)数据。
正是在这样的背景下,澳大利亚Walter and Eliza Hall医学研究所、墨尔本大学与广州国家实验室、广州医科大学联合研究团队在《NAR Genomics and Bioinformatics》上发表了他们的研究成果。他们开发了stPipe这一灵活、高效的R/Bioconductor预处理流程,专门设计用于处理多种sST平台数据,为空间转录组研究社区提供了急需的标准化工具。
为了开展这项研究,研究人员运用了多项关键技术方法:基于R/Bioconductor的模块化流程设计,支持10x Visium、Slide-seq、Stereo-seq和Curio-seeker等多平台数据整合;利用Rsubread进行序列比对,DropletUtils进行质量控制过滤;开发交互式Shiny应用进行区域选择;创建与Seurat、SpatialExperiment和Anndata兼容的数据输出格式。研究使用了来自SpatialBench Visium项目的小鼠脾脏数据集(GEO accession GSE254652)、10x Genomics公开的小鼠脑数据集、Slide-seq V2海马体数据(Puck_191204_01)和Stereo-seq小鼠脑数据(SS200000135TL_D1)进行方法验证。
stPipe工作流程始于Run_ST函数,它将FASTQ或BAM文件重整、读段比对、外显子映射、条形码解复用和基因计数等多个步骤整合为一个连贯过程。不同sST平台的读段结构存在显著差异:Visium在FASTQ读段1中存储16-bp空间条形码和12-bp UMI(Unique Molecular Identifier),而Slide-seq则包含更复杂的条形码结构。对于BGI Stereo-seq数据,stPipe通过C++脚本将空间条形码解卷积为对应的x、y坐标对。比对完成后,reads被分配到注释的基因组特征(如外显子或转录本),最后通过基于汉明距离的UMI去重复方法生成基因计数矩阵。
通过Run_Loc_Match函数,stPipe将基因计数矩阵与空间位置信息进行匹配。对于10x Visium,stPipe内部存储了五种不同芯片类型的固定条形码-坐标关系;而对于Stereo-seq、Slide-seq和Curio-seeker等平台,则需要用户提供样本特异的空间坐标文件。此外,stPipe还利用Python OpenCV库实现了Visium技术的每个spot的像素计算,通过基于圆的检测提高定位精度。
Run_QC函数提供了两种质量控制选项:max_slope方法和EmptyDropletUtils方法。前者基于每个空间位置的原始UMI计数分布,通过识别累积UMI分布曲线中的最大斜率点来区分背景噪声和生物信号;后者利用DropletUtils包计算错误发现率(False Discovery Rate, FDR)来评估每个空间位置包含真实细胞的可能性,提供更精细的过滤控制。
Run_Interactive函数解决了自动质量控制可能无法精确去除所有背景或组织外spot的问题。基于R Shiny构建的交互式工具支持缩放、平移、矩形选择和套索选择等多种操作方式,并能将每个spot的空间位置与其在UMAP或t-SNE图中的对应点链接起来。用户既可以在空间图像上直接选择感兴趣区域(Region of Interest, ROI),也可以在高维聚类图上选择特定簇,系统会自动将选择映射到对应空间位置。四个交互按钮("Add Selection"、"Clear Last Selection"、"Reset All Selections"和"Save All Selected ROI")使选择管理更加便捷。
Run_Visualization函数从空间水平和读段水平两个维度展示数据处理结果。空间UMI计数以热图形式显示,解复用结果以条形图呈现,比对统计信息以堆叠条形图展示,而UMI重复数则以线图表示。对于多样本实验,UMI计数分布图有助于评估样本间数据质量一致性。这些指标共同提供了对数据质量的全面评估,如较低的外显子比对率可能表明RNA质量不佳或文库制备存在技术问题,而过高的PCR重复则可能提示文库复杂度低。
Run_HTML函数自动生成R Markdown格式的HTML报告,整合了Run_QC、Run_Visualization和Run_Clustering函数的输出结果。报告包含条形码解复用、UMI去重复、比对统计、QC阈值、质量控制前后空间位置数量等关键质量指标,以及交互式t-SNE和UMAP图与聚类结果。stPipe的一个关键特点是能够在不同平台间收集一致的QC指标和数据可视化,便于多个数据集间的比较。
Run_Create_Obj函数创建三种兼容不同主流工作流程的数据对象:R Seurat空间对象(兼容Seurat sST工作流程)、R SpatialExperiment对象(用于Bioconductor sST工作流程如nnSVG、STdeconvolve)和Python AnnData空间对象(用于Squidpy sST工作流程)。这种灵活性确保了stPipe输出能够无缝接入当前最流行的空间转录组分析工具。
stPipe通过配置文件简化函数使用和提高代码可读性。配置文件必需参数包括数据目录、输出目录、样本物种、技术版本、指定空间坐标系、读段结构格式、处理线程数等。平台特定信息如Slide-seq或Curio-seeker数据的空间坐标文件路径、基于polyA测序方法的特定fa和gff文件路径、Stereo-seq数据的h5映射文件路径等也通过配置文件统一管理。
研究人员使用stPipe对SpatialBenchVisium小鼠脾脏数据集中的多个样本(167、168、544、545、708和709)进行预处理。结果表明,stPipe与10x Space Ranger输出在保留spot方面有超过98%的交集率,每个样本的UMI计数和捕获基因分布极为相似。对于709样本(使用四种不同协议分析),stPipe与10x Space Ranger在QC指标上的平均差异小于1.5%,包括比对读段百分比、检测到的总基因数、每个spot的中位数UMI计数和每个spot组织下平均读段数等关键参数。
下游分析结果进一步验证了stPipe的可靠性。B细胞簇的差异表达分析MA图显示出与原始研究一致的趋势,准确检测到性别特异性基因(Y染色体基因和逃避X失活的X染色体基因)的富集。在空间可变基因和高度可变基因识别中,Car2在两个类别中均排名靠前,与原始论文发现一致。细胞类型推断结果显示,stPipe与Space Ranger结果在细胞类型比例上的平均差异小于2%,涵盖了浆细胞、T细胞、中性粒细胞、B细胞、生发中心和红细胞等主要细胞类型。
研究人员使用stPipe对Visium、Slide-seq和Stereo-seq三个平台的小鼠脑组织公开数据集进行预处理,随后通过Seurat工作流程进行下游分析,包括标记基因识别、细胞类型推断和空间域鉴定。在海马区CA2区域的识别中,不同平台表现出不同的分辨率特性:Visium分辨率较低但能捕获广泛的区域差异;Slide-seq分辨率提高,能够识别更精细的海马结构包括CA2区域;Stereo-seq分辨率最高,能有效区分CA1和CA3等子区域域,但在准确识别CA2区域方面存在困难。标记基因敏感性测试显示,大多数重要的域特异性和区域特异性标记基因(如Hpca、Prox1、Ptgds、Ttr、Prdm8和Slc17a7用于海马区,Rgs14、Camk4、Amigo2和Ntf3用于CA2区域)能被三个平台一致捕获,但Visium和Stereo-seq在捕获的空间切片中未能检测到CA2标记基因。
研究结论表明,stPipe作为第一个完全集成的R包,能够处理来自多个sST平台的双端测序数据,创建空间计数矩阵以供下游分析。与厂商提供的预处理工具相比,stPipe支持跨多种技术平台的数据处理,具有高度可定制性。在计算效率方面,stPipe在标准Linux服务器(4个CPU和24GB RAM)上处理典型Visium样本(8000万对端读段)仅需约20分钟,处理Slide-seq样本(超过2亿对端读段)需2小时,处理Stereo-seq样本(2.7亿对端读段)需8小时,表现出良好的计算性能。
讨论部分指出,尽管空间转录组领域在多样化技术平台和空间分析工具方面快速发展,但处理主流sST协议原始数据的选项仍然有限。stPipe填补了这一空白,接受原始FASTQ文件并允许读段结构的灵活性,以从各种sST协议获取空间基因计数。未来改进计划包括扩展对下游分析任务的支持、适配新发布的sST平台(如10x Visium HD)和格式(如SpatialData),以及应用SpotClean等技术提高基因特异性UMI计数的准确性,并将stPipe应用于更大规模的sST基准分析中。
该研究的重大学术价值在于提供了首个全面支持多平台sST数据预处理的统一解决方案,建立了空间转录组数据预处理的标准流程,为不同技术平台间的比较研究提供了可靠基础。通过严格的基准测试验证,stPipe展现出与厂商工具相当甚至更优的性能,同时保持了开放源代码和高度可定制化的优势,有望成为空间转录组研究领域的重要基础工具。
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号