BISON:基于贝叶斯潜在区块模型的空间组学数据双聚类与特征选择方法

【字体: 时间:2025年09月10日 来源:Bioinformatics 5.4

编辑推荐:

  为解决空间转录组学(SRT)数据中空间域标记基因识别存在的"双重检验"问题,研究人员开发了BISON模型——一种整合特征选择的贝叶斯潜在区块模型。该模型通过零膨胀Polya urn先验实现基因特征选择,利用马尔可夫随机场(MRF)整合空间信息,同步完成基因聚类与空间域划分。应用模拟与真实数据集验证表明,BISON能准确识别空间域特异性差异基因(DGs),在MOB、HBC和mPFC数据集中ARI值最高达0.591。

  

随着新一代测序(NGS)为基础的空间分辨转录组学(Spatially Resolved Transcriptomics, SRT)技术发展,科学家们能够在保留空间位置信息的前提下,绘制全转录组的基因表达图谱。这类技术主要分为两类:基于成像的平台(如seqFISH、MERFISH)可检测数百个预选基因,而基于NGS的平台(如10x Visium、Slide-seq)则能覆盖数万个蛋白编码基因。然而,如何从海量数据中识别具有空间表达模式的基因,特别是空间域标记基因(Spatially Variable Genes, SVGs),仍存在重大挑战。传统方法采用"先聚类后检验"的两步策略,会导致"双重检验"(double-dipping)问题,即使用相同数据定义空间域又检验差异表达,造成假阳性率升高。此外,现有方法如SpaRTaCo依赖全部基因特征,包含大量无信息基因,可能干扰空间域的准确识别。

为突破这些局限,Bencong Zhu等研究团队在《Bioinformatics》发表了题为"BISON: Bi-clustering of spatial omics data with feature selection"的研究论文。该研究开发了统一贝叶斯框架,通过整合特征选择与双聚类分析,同步实现空间域划分和差异基因识别。关键技术包括:1)基于泊松分布的计数生成模型直接处理原始数据;2)零膨胀Polya urn先验实现基因特征选择,区分信息基因(DGs)与非信息基因(nonDGs);3)马尔可夫随机场(MRF)先验整合空间邻接矩阵;4)改进的集成完全似然准则(mICL)确定最佳聚类数。研究使用小鼠嗅球(MOB)ST数据、人类乳腺癌(HBC)10x Visium数据和小鼠前额叶皮层(mPFC)STARmap数据验证模型性能。

模型构建

BISON采用潜在区块模型架构,将p×n的基因表达矩阵Y分解为R个基因簇和K个空间域的区块。通过引入潜在变量z(空间域标签)和ρ(基因簇标签),建立泊松似然函数:yji|zi=k,ρj=r ~ Poi(sigjμrk),其中si和gj分别为位点与基因的特异效应。关键创新在于设置null基因集D0={j:ρj=0},对应表达无空间异质性的nonDGs,其似然函数简化为Poi(sigjμ0)。

空间信息整合

通过n×n邻接矩阵E定义空间依赖结构,采用MRF先验:P(zi=k|z-i) ∝ exp{bk+hΣeii'I(zi'=k)},其中h控制空间依赖强度。该设计使相邻位点倾向于归属相同空间域,保证空间连续性。

模拟研究

在包含278个位点、500-1000基因的模拟数据中,BISON在空间域聚类(ARI=0.561)和基因聚类(ARI=0.591)均显著优于SpaRTaCo、sparseBC等方法。特别当nonDGs比例π0>0.6时,所有方法性能下降,但BISON表现出更强鲁棒性。负二项分布模拟的敏感性分析进一步验证了模型对分布误设的稳健性。

真实数据应用

在MOB数据中,BISON识别出4个空间域和3个DG组(184/160/264基因),分别对应组织内层、中层和外层的标记基因。图4显示其空间域划分与病理注释高度一致(ARI=0.561),图5展示各基因组的空间表达模式:Pattern 1基因在内层高表达,Pattern 2/3分别标记中/外层。HBC数据分析发现5个空间域和4个DG组(150/200/108/470基因),GO富集显示Pattern 1/2基因与细胞粘附相关(调整p值<0.002),Pattern 3/4参与免疫反应和细胞迁移。mPFC数据中,BISON识别出3个空间域和3个DG组(13/30/33基因),其中Pattern 1包含GABA能神经元标记基因(Gad1、Sst等)。

研究结论指出,BISON通过统一建模框架解决了空间组学数据分析中的三个关键问题:1)避免传统两步法的"双重检验"偏差;2)通过特征选择提高聚类准确性;3)整合空间信息获得连续域划分。该方法在生物医学领域具有广泛应用价值,如肿瘤微环境解析、发育生物学研究等。局限性包括:1)位点/基因效应采用插件估计可能引入偏差;2)未考虑批次效应;3)计算成本较高。未来改进方向包括引入变分推断加速计算、扩展至多切片数据整合等。这项研究为空间组学数据分析提供了新的方法论工具,其开源实现可通过https://github.com/new-zbc/BISON获取。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号