Cell Decoder:基于多尺度可解释深度学习解码细胞身份的新框架
《Genome Biology》:Cell Decoder: decoding cell identity with multi-scale explainable deep learning
【字体:
大
中
小
】
时间:2025年10月21日
来源:Genome Biology 9.4
编辑推荐:
本研究针对单细胞转录组数据中细胞身份注释依赖人工经验、现有深度学习模型缺乏多尺度可解释性的问题,开发了融合生物先验知识的图神经网络模型Cell Decoder。该模型通过整合蛋白质相互作用、基因-通路映射和通路层级信息,构建多尺度生物网络,结合自动化机器学习技术优化架构,实现了高精度细胞类型鉴定、跨数据集整合及新细胞类型发现。在7个人类和鼠类数据集上的测试表明,其准确率(0.87)和Macro F1值(0.81)均优于9种主流方法,且对数据噪声和分布偏移具有强鲁棒性。通过梯度加权类激活映射(Grad-CAM)等多视角归因分析,模型可解析细胞类型特异性的通路和生物过程,为理解细胞异质性提供了可解释的计算工具。研究成果发表于《Genome Biology》,对推动细胞身份的系统性解码具有重要意义。
细胞是生命的基本单位,其多样性和功能特性构成了组织与器官复杂功能的基石。随着单细胞转录组技术的快速发展,科学家能够以前所未有的分辨率解析细胞组成。然而,传统的细胞类型鉴定依赖于差异表达基因的人工筛选,不仅耗时耗力,还易受主观经验影响。尽管深度学习模型在自动化注释中展现出潜力,但其“黑箱”特性限制了生物学机制的可解释性。如何在保持高精度的同时揭示细胞身份的多尺度生物学特征,成为当前领域的核心挑战。
针对这一问题,来自清华大学和国家蛋白质科学中心(北京)的联合团队在《Genome Biology》发表了题为“Cell Decoder: decoding cell identity with multi-scale explainable deep learning”的研究。他们开发了Cell Decoder模型,通过将蛋白质相互作用(PPI)、基因-通路关联(Reactome、MSigDB)和通路层级结构整合为多层图网络,模拟从基因到通路再到生物过程(Biological Process, BP)的信息传递。模型采用自动化机器学习(AutoML)优化图注意力网络(GAT)和图同构网络(GIN)等模块,并引入梯度加权类激活映射(Grad-CAM)实现多尺度特征归因。
研究整合STRING v11.5、MSigDB和Reactome数据库构建基因-通路-生物过程层级图,使用单细胞RNA测序数据(来源包括GEO、ArrayExpress等公共数据集)进行训练。模型通过图神经网络(GNN)进行层内(intra-scale)和跨层(inter-scale)信息聚合,采用AutoML搜索最优超参数与架构,并通过特征扰动、节点/边删除实验评估鲁棒性。
在7个数据集(如HU_Liver、MU_Lung)的测试中,Cell Decoder在准确率和Macro F1值上均优于ACTINN、TOSICA等9种方法(图2a)。其优势在数据分布偏移和细胞类型不平衡场景中尤为显著:例如在人类肝脏数据中,当查询集细胞比例与参考集相反时,Cell Decoder的召回率(0.88)较次优方法提升14.3%(图2e-f)。通过注入高斯噪声的扰动实验,模型在噪声权重高达1时仍保持较高稳定性(图2b),表明其对技术噪声的强耐受性。
基于通路层(PW)和生物过程层(BP)的嵌入表示,Cell Decoder在10批次人类免疫细胞数据中有效消除了个体和平台间的批次效应(图3a-b)。与Harmony、scVI等整合工具相比,其结合生物学先验的嵌入在批次校正指标(kBET、PCR)和生物学保守性指标(ARI、轮廓系数)上均达到最优(图3c),尤其在无批次标签的“标签无关”模式下仍具竞争力。
通过掩码训练集中“单核/巨噬细胞”(Mono/Macro)模拟新细胞类型出现场景,Cell Decoder以0.95为概率阈值成功识别94%的隐藏细胞类型,显著优于TOSICA(37%)和Cell BLAST(20%)(图4a-b)。在人类骨髓数据中,模型将部分原注释为造血干祖细胞(HSPC)的细胞重新归类为红细胞,差异表达分析证实这些细胞高表达红细胞标志基因(HBB、HBA2等),揭示了注释的潜在误差(图4c-e)。
应用模型整合E6.25-E6.75阶段小鼠胚胎数据后,发现胚胎内脏内胚层(EmVE)在E6.75时期程序性死亡通路活性升高,而胚外内脏内胚层(ExVE)富集于免疫系统相关通路(图5d)。进一步聚类将EmVE/ExVE划分为4个亚型,分别对应脂代谢、增殖、结构重塑和神经上皮分化等特征,揭示了发育过程中的精细异质性(图5e-f)。
通过梯度归因(Grad)和Grad-CAM,模型将分类决策映射至特定生物特征。例如在小鼠胚胎组织中识别出Lefty1-Nodal等关键相互作用对(附图S14),从基因、通路和互作网络层面提供细胞身份的生物机制解释。
Cell Decoder通过融合多尺度生物先验知识,突破了传统深度学习在可解释性上的局限,为细胞身份解码提供了高精度、强鲁棒性的分析框架。其能力覆盖细胞注释、数据整合、新类型发现及发育动力学解析,尤其在多组学数据激增的背景下,为探索细胞状态转换和疾病相关异质性提供了新路径。未来可扩展至单细胞多组学数据建模或遗传扰动响应预测,进一步深化对细胞功能架构的理解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号