
-
生物通官微
陪你抓住生命科技
跳动的脉搏
SuperGLUE:基于概率深度学习与图解释的多模态单细胞数据整合分析框架
【字体: 大 中 小 】 时间:2025年09月06日 来源:Cell Reports Methods 4.5
编辑推荐:
研究人员针对单细胞多模态数据整合中存在的全局/局部结构保留不足、特征关系解释性差等问题,开发了SuperGLUE框架。该框架通过概率深度学习与图扰动统计检验,实现了跨模态数据的精准整合与可解释性分析,在保留生物结构、推断调控网络等方面优于现有方法,为多组学数据驱动的生物学发现提供了新工具。
在单细胞生物学研究领域,高通量测序技术的突破带来了RNA测序(scRNA-seq)、染色质可及性检测(scATAC-seq)、蛋白质组学等多模态数据的爆发式增长。然而,如何整合这些海量异构数据揭示细胞状态和功能的全景图谱,成为当前面临的核心挑战。现有方法在全局结构保留、跨模态关系解释等方面存在明显局限,特别是缺乏统计严谨的特征关系分析方法。针对这些问题,Tianyu Liu等研究团队在《Cell Reports Methods》发表了创新性解决方案。
研究团队开发了SuperGLUE(super graph-linked unified embeddings)框架,其核心技术包括:1)基于变分自编码器(VAE)的多模态数据联合嵌入模型,通过KL散度融合分类器指导训练;2)图神经网络(GNN)处理空间多组学数据;3)基于图扰动的统计检验方法,替代传统置换检验提高特征关系分析的稳定性;4)SHAP值驱动的特征-细胞状态关系解析。实验数据涵盖10X Genomics、Allen Brain等平台的单细胞和空间多组学数据集。
研究结果部分显示:
"SuperGLUE enables the preservation of global structure":通过PAGA相似性等指标验证,SuperGLUE在模拟数据和真实数据中均能更好保持细胞状态的全局拓扑结构,优于UnitedNet和GLUE等方法。

"SuperGLUE outperforms other baselines in real-data analysis":在scRNA+scATAC、scRNA+scProtein等6种多模态组合的基准测试中,SuperGLUE的Sbio和Stech综合评分显著领先,尤其在PBMC等复杂数据集上展现优势。

"SuperGLUE facilities explainability for multi-modal data analysis":通过SHAP值成功鉴定CD14 Mono细胞标记基因DPYD等,其预测性能显著优于随机基因集;图扰动检验发现的基因-蛋白相互作用与实验证据高度吻合。

"SuperGLUE is able to uncover specific biological networks and processes under perturbations":在Brachyury敲除实验中,成功推断出Foxq1等转录因子的条件特异性调控网络,GO富集显示神经相关通路显著变化。

该研究的创新价值在于:1)首次将分类器引导训练与图扰动统计检验结合,提升了解释性分析的严谨性;2)开发了适用于空间多组学数据的GNN架构;3)证实多模态整合可揭示单组学无法发现的调控关系。尽管在计算效率等方面仍有改进空间,SuperGLUE为构建多组学基础模型提供了重要技术支撑,其开源实现将推动单细胞生物学研究的可解释性分析范式发展。
生物通微信公众号
知名企业招聘