空间转录组学中差异表达基因识别方法的比较研究:广义估计方程框架的稳健性评估

《PLOS Computational Biology》:A comparative study of statistical methods for identifying differentially expressed genes in spatial transcriptomics

【字体: 时间:2026年02月12日 来源:PLOS Computational Biology 3.6

编辑推荐:

  本研究系统比较了空间转录组学(ST)中差异表达(DE)基因识别的统计方法,发现常用Wilcoxon秩和检验因忽略空间相关性导致假阳性率膨胀。研究提出基于广义估计方程(GEE)的独立GEE检验,通过模拟和真实数据(乳腺癌/前列腺癌ST数据集)验证其具有最优的I型错误控制能力与可比检验效能。成果以R包"SpatialGEE"实现,为ST数据分析提供稳健新工具。

  
空间转录组学技术背景与挑战
空间转录组学(Spatial Transcriptomics, ST)技术在保留组织空间位置信息的同时实现全基因组表达谱检测,为癌症等复杂组织架构研究提供新视角。差异表达基因识别是ST分析的核心目标之一,但当前主流工具Seurat默认采用的Wilcoxon秩和检验因忽略空间相关性,可能导致假阳性率失控。
统计方法比较框架
研究系统评估了五种统计方法:Wilcoxon秩和检验、两样本z检验、广义估计方程(GEE)稳健Wald检验、GEE广义得分检验(GST)以及独立GEE检验。通过模拟研究设置三种空间相关性强弱场景(弱/中/强),采用GLMM模型参数估计结果生成零膨胀计数数据,以I型错误控制和检验效能为核心指标。
模拟研究结果
在I型错误控制方面,独立GEE在所有空间场景下均保持稳定,而Wilcoxon检验在强相关性下出现假阳性膨胀,z检验在中强相关性下严重失控。GEE-GST在聚类数m=25时检验效能偏低,但m=100时与其他方法相当。独立GEE因将每个斑点作为独立聚类并使用稳健标准误校正,展现出最优误差控制能力。
真实数据验证
在乳腺癌和前列腺癌10× Genomics Visium数据集应用中,Wilcoxon检验的QQ图偏离基准线最显著,尤其在零占比低于50%的基因中假阳性风险更高。通过组织内部对照实验(纤维组织分区比较),独立GEE与GEE-GST的p值分布更接近理论分布。通路富集分析显示,独立GEE能识别更多癌症相关通路(如PI3K-Akt信号、黏着斑通路),而GEE-GST结果相对保守。
计算效率比较
非参数检验(Wilcoxon、z检验)计算最快(4-15秒),独立GEE次之(9-45秒),GEE-GST因需估计空间协参数最耗时(170-220秒)。GLMM因43%基因无法收敛被排除比较,凸显其处理零膨胀数据的局限性。
结论与展望
独立GEE通过"工作独立"假设与稳健标准误校正,在控制I型错误与计算效率间取得平衡,建议作为Wilcoxon检验的补充方案。研究开发的R包SpatialGEE为ST数据分析提供新工具,未来需在不同ST技术平台(如Xenium、Slide-Seq)中验证方法普适性。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号