
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SMOPCA:整合空间多组学数据的维度降维方法显著提升空间域检测效率
【字体: 大 中 小 】 时间:2025年05月23日 来源:Genome Biology 10.1
编辑推荐:
为解决空间多组学数据建模方法的不足,南京大学等机构的研究人员开发了SMOPCA(空间多组学主成分分析)方法,通过整合多模态数据并保留空间依赖性,显著提升了空间域检测的效率和准确性。研究结果表明,SMOPCA在单细胞和空间多组学数据中均优于现有方法,为生物医学研究提供了更强大的分析工具。
随着空间多组学技术的快速发展,科学家们能够在保留空间信息的同时,对基因组、转录组、表观组等多组学层面进行联合分析。然而,现有的计算方法大多无法有效整合空间信息与多模态数据,导致空间域检测的准确性和效率受限。这一瓶颈严重阻碍了组织微环境、细胞互作等关键生物学问题的深入研究。
针对这一挑战,南京大学、天津财经大学和梅奥诊所的研究团队在《Genome Biology》发表了题为"SMOPCA: spatially aware dimension reduction integrating multi-omics improves the efficiency of spatial domain detection"的研究论文。该研究开发了一种新型空间多组学主成分分析方法SMOPCA,能够同时建模多组学数据和空间信息,显著提升了空间域检测的性能。
研究团队采用了多项关键技术方法:基于因子分析模型整合多组学数据;利用Matern核函数建模空间依赖性;通过最大边际似然估计优化参数;应用UMAP生成伪空间坐标处理单细胞数据;使用k-means聚类进行空间域识别。实验数据包括CITE-seq、SMAGE-seq等单细胞多组学数据,以及空间CITE-seq、MISAR-seq等空间多组学数据。
在"An overview of SMOPCA"部分,研究阐明了SMOPCA的核心算法框架。该方法通过因子分析模型将多组学数据Y1,...,YK与空间坐标S={s1,...,sn}整合,学习共享的潜在因子Z。关键创新在于为每个潜在因子Zl设定多元正态分布(MVN)先验,其协方差矩阵Σl基于空间坐标计算,从而显式地建模空间依赖性。
"Simulation studies"部分通过两类模拟实验验证了SMOPCA的优越性。在模拟研究I中,研究人员为PBMC等真实单细胞多组学数据集生成模拟空间坐标,SMOPCA在AMI、NMI和ARI三项指标上均显著优于SpatialPCA等对比方法。模拟研究II基于SRTsim生成的三组学模拟数据进一步证明,SMOPCA在处理多模态数据方面的独特优势。
"Application to spatial multi-omics data"部分展示了SMOPCA在真实空间多组学数据中的出色表现。在空间CITE-seq的人扁桃体数据中,SMOPCA识别出的7个空间簇与组织解剖结构高度一致,且Moran's I和LISI评分最优。Stereo-CITE-seq小鼠胸腺数据分析同样显示,SMOPCA能准确识别髓质、皮质等解剖区域。在MISAR-seq小鼠胚胎脑数据中,SMOPCA对前脑、中脑和后脑区域的区分效果最佳,伪R2值最高。
"Application to single-cell multi-omics data"部分表明,即使对于缺乏真实空间坐标的单细胞多组学数据,SMOPCA通过UMAP生成的伪坐标仍能有效提升聚类性能。特别值得注意的是,当协方差矩阵设为对角矩阵时,SMOPCA仍优于许多现有方法,展现了方法的鲁棒性。
在讨论部分,作者强调了SMOPCA的多项创新:首次将空间依赖性显式整合到多组学维度降维框架中;采用自动学习长度尺度参数的自适应策略;支持任意数量组学模态的整合。与SpatialGlue等深度学习方法相比,SMOPCA具有更好的可解释性和计算效率。研究同时指出了当前方法的局限性,如对计数数据的零膨胀特性建模不足,这为未来研究指明了方向。
该研究的科学意义在于:为空间多组学数据分析提供了强大工具;建立了保留空间依赖性的多模态整合新范式;推动了组织微环境、发育生物学等领域的机制研究。SMOPCA的开源实现(MIT许可)将促进其在生物医学研究中的广泛应用,助力单细胞和空间多组学时代的精准医学发展。
生物通微信公众号
知名企业招聘