
-
生物通官微
陪你抓住生命科技
跳动的脉搏
scClassify2:基于双图层消息传递框架与序数回归的精准细胞状态识别新方法
【字体: 大 中 小 】 时间:2025年08月20日 来源:Genome Biology 9.4
编辑推荐:
单细胞转录组学研究中,相邻细胞状态的识别一直是技术难点。Wenze Ding和Yue Cao团队开发了scClassify2,通过双图层消息传递神经网络(MPNN)整合基因表达与先验生物学知识,结合序数回归(ordinal regression)有效区分连续细胞状态。该方法在8个数据集上表现优于scGPT等前沿工具,并成功应用于亚细胞空间转录组(SST)数据,为细胞状态研究提供了通用解决方案。
在生命科学领域,单细胞转录组技术(scRNA-seq)的革命性突破让研究者能够以前所未有的分辨率观察细胞异质性。然而,当面对连续变化的生物学过程——如胚胎发育或免疫细胞分化时,传统方法往往只能识别离散的细胞类型,对处于过渡阶段的"中间态"细胞束手无策。这些相邻细胞状态间基因表达差异细微,就像试图在渐变色带上划分明确界限,导致现有算法出现大量误判。
正是这一技术瓶颈,促使悉尼大学Jean Yee Hwa Yang团队在《Genome Biology》发表突破性研究。他们开发的scClassify2创新性地采用消息传递神经网络(MPNN)架构,将基因表达比值转化为图网络的边特征,同时整合Gene2vec生成的基因共表达信息作为节点特征。这种双图层设计如同为细胞安装了"分子显微镜",能捕捉传统方法忽略的微妙表达模式。更巧妙的是,研究者引入序数回归(ordinal regression)算法,将细胞状态识别转化为系列条件概率问题,模拟了生物学过程中天然的时序关系。
关键技术包括:1) 基于8个公共scRNA-seq数据集构建基准测试框架;2) 采用Xenium平台亚细胞空间转录组数据验证跨平台适用性;3) 开发Wasserstein距离度量的基因嵌入重建损失函数;4) 建立包含30种组织预训练模型的网络服务器scClassify-catalogue。
scClassify2通过双图层架构整合生物学知识
研究团队发现,仅使用表达数据的单层网络准确率仅63%,而加入Gene2vec基因嵌入的双图层架构将性能提升至95%。如图1所示,MPNN通过边特征(基因表达对数比值)和节点特征(基因共表达模式)的信息传递,成功构建了区分细胞状态的分子拓扑图谱。
序数回归破解连续状态识别难题
在鼠标原肠胚形成数据中,传统多分类器将40%的E6.75期细胞误判为E7.0期,而序数回归模型准确率高达93%。这种算法通过链式条件概率建模,反映了发育过程中E6.5→E6.75→E7.0的自然时序关系(图2d-e)。
跨平台性能验证
在乳腺癌Xenium空间转录组数据中,scClassify2保持92%的识别精度,且空间区域间性能波动小于5%(图4)。这表明该方法不受技术平台限制,能适应新兴的单细胞检测技术。
这项研究的深远意义在于:首先,首次将消息传递神经网络引入单细胞分析,为理解基因调控网络提供了新视角;其次,建立的预训练模型库大幅降低单细胞研究的计算门槛;最后,提出的对数比值转换策略为跨数据集分析提供了稳定特征表示。正如作者强调,scClassify2不仅适用于发育生物学,在药物扰动响应、肿瘤微环境演变等医学研究领域同样具有广阔应用前景。
生物通微信公众号
知名企业招聘