
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用spoon框架校正空间转录组数据中的均值-方差关系以精准识别空间可变基因
【字体: 大 中 小 】 时间:2025年06月17日 来源:Biostatistics 1.8
编辑推荐:
本研究针对空间转录组(SRT)数据分析中存在的"均值-方差关系"技术偏差问题,开发了基于经验贝叶斯的spoon统计框架。通过整合高斯过程回归与加权算法,该方法有效校正了log2 转化导致的异方差性,在模拟和真实数据中均证明可提高空间可变基因(SVGs)检测的准确性,为肿瘤微环境等研究提供了更可靠的生物标志物发现工具。
在生命科学研究的前沿领域,空间转录组技术(Spatially Resolved Transcriptomics, SRT)正掀起一场革命。这项能够同时获取基因表达信息和空间位置数据的技术,已经为癌症、发育生物学和神经退行性疾病等领域带来了全新见解。然而,在分析这些宝贵数据时,科学家们遇到了一个看似简单却影响深远的问题——当我们将原始的基因计数数据进行log2
转化后,原本高表达的基因反而会表现出更小的方差,这种被称为"均值-方差关系"的技术偏差严重影响了空间可变基因(Spatially Variable Genes, SVGs)的准确识别。
SVGs作为在二维空间中呈现非随机表达模式的基因,其准确鉴定对理解组织微环境至关重要。目前大多数SVGs检测方法通过P值或空间方差比例等效应值对基因进行排序,却忽视了转化过程中的这一系统性偏差。正如在bulk RNA-seq和scRNA-seq研究中已发现的那样,这种忽视可能导致假阳性结果或错误排名。特别是在空间转录组分析中,这种偏差会使得高表达基因被过度优先考虑,而真正具有生物学意义的低表达空间模式基因可能被遗漏。
约翰斯·霍普金斯大学的研究团队在《Biostatistics》发表的研究中,提出了名为spoon的创新解决方案。这项研究揭示了SRT数据中普遍存在的均值-方差关系,并开发了一个基于经验贝叶斯技术的统计框架来校正这一偏差。通过分析来自人类不同器官(包括前额叶皮层、乳腺癌和卵巢癌组织)的多组SRT数据,研究人员证实了这种技术偏差在不同组织类型中的广泛存在。更重要的是,他们发现即使在同一组织的不同解剖层(如大脑皮层各层)内,这种关系依然持续存在,说明这确实是一个技术性问题而非生物学差异。
研究采用了几个关键技术方法:首先使用最近邻高斯过程(Nearest-Neighbor Gaussian Process, NNGP)回归模型拟合每个基因的空间表达模式;然后通过平滑样条曲线建模基因水平的均值-方差关系;最后利用Delta方法对数据和协变量进行重新标定。研究团队还开发了相应的R/Bioconductor软件包,使方法易于实施。分析中使用了来自10x Genomics Visium平台的多个真实数据集,包括背外侧前额叶皮层(DLPFC)、导管乳腺癌和卵巢癌等组织样本,以及模拟的SRT数据用于方法验证。
【均值-方差关系在空间转录组数据中的普遍存在】
通过系统分析不同人类组织的SRT数据,研究发现均值-方差关系在多种组织中普遍存在,特别是在非空间方差成分(τ2
)中表现最为明显。如图2所示,在DLPFC、导管乳腺癌、海马体(HPC)、蓝斑核(LC)和卵巢癌等不同组织中,高表达基因倾向于具有更大的τ2
估计值。由于τ2
被用于计算空间方差比例(σ2
/(σ2
+τ2
)),这种依赖关系意味着基因被优先列为SVGs的程度与其整体表达水平相关,而非纯粹反映其真实的空间变异模式。
【现有SVGs检测方法中的均值-排序关系】
研究评估了多种主流SVGs检测方法(nnSVG、SPARK-X、SpaGFT等),发现它们都存在"均值-排序关系"——即高表达基因倾向于获得更好的排序。如图3所示,在DLPFC、卵巢癌和小叶乳腺癌数据集中,几乎所有方法都显示出低表达基因很难进入排名前列。这种偏差在SPARK-X中尤为突出,即使该方法直接建模原始计数数据而非转化后的数据。这一发现说明均值-方差偏差是SRT数据分析中一个普遍但被忽视的问题。
【spoon框架在模拟数据中的性能验证】
通过模拟研究表明,spoon能有效校正均值-方差关系。如图4所示,未加权的nnSVG方法显示出明显的均值-排序关系,而经过spoon加权后,各表达水平的基因都有机会进入高排名区域。在保持假发现率(FDR)和真阴性率(TNR)相当的情况下,加权方法对较小长度尺度(反映更局部的空间模式)的基因显示出更好的真阳性率(TPR)。模拟还证实,spoon对不同长度尺度参数(控制空间相关衰减速度)都具有稳定的校正效果。
【spoon在真实数据中识别出有生物学意义的SVGs】
应用spoon分析癌症数据集,研究发现许多低表达但具有重要生物学意义的基因被传统方法忽略,而spoon能成功识别。如图5所示,在卵巢癌数据中,TUFT1和DDX39B等已知与卵巢癌相关的基因因低表达被常规方法遗漏,但被spoon重新捕获。类似地,在ER+乳腺癌中,59个低长度尺度基因(反映局部空间变异)经spoon加权后排名提升,其中16个与乳腺癌相关。基因集富集分析进一步证实,spoon识别的SVGs集在疾病相关通路上显示出更强的富集信号。
这项研究的意义不仅在于提出了一个技术问题的解决方案,更在于揭示了空间转录组数据分析中一个被广泛忽视的系统性偏差。spoon框架的创新性体现在三个方面:首先,它将经验贝叶斯加权策略从差异表达分析领域成功拓展到空间转录组学;其次,通过整合空间统计模型(NNGP)与方差校正技术,实现了对空间依赖性和技术偏差的共同建模;最后,开发的R/Bioconductor软件包使方法易于被广大研究者采用。
研究的讨论部分指出,当前空间转录组模拟研究的局限性使得完全模拟均值-方差关系具有挑战性。未来工作需要开发更灵活的模拟框架,并探索spoon在其他SRT技术平台上的适用性。值得注意的是,spoon对检测局部空间模式(小长度尺度)的基因特别有效,这对研究肿瘤微环境异质性等精细结构具有重要意义。
这项由约翰斯·霍普金斯大学团队完成的研究,为空间转录组数据分析设立了新的标准。正如作者强调的,准确识别SVGs是下游分析(如降维和空间聚类)的基础,spoon框架的广泛应用有望提高这些分析的可靠性,最终促进我们对复杂生物系统空间组织的理解。随着空间转录组技术在临床研究中的应用日益增多,消除此类技术偏差对于确保研究发现的可重复性和转化潜力将变得越来越重要。
生物通微信公众号
知名企业招聘