scClassify2:基于双图层消息传递框架与序数回归的精准细胞状态识别新方法

【字体: 时间:2025年08月20日 来源:Genome Biology 9.4

编辑推荐:

  单细胞转录组学研究中,相邻细胞状态的识别一直是技术难点。Wenze Ding和Yue Cao团队开发了scClassify2,通过双图层消息传递神经网络(MPNN)整合基因表达与先验生物学知识,结合序数回归(ordinal regression)有效区分连续细胞状态。该方法在8个数据集上表现优于scGPT等前沿工具,并成功应用于亚细胞空间转录组(SST)数据,为细胞状态研究提供了通用解决方案。

  

在生命科学领域,单细胞转录组技术(scRNA-seq)的革命性突破让研究者能够以前所未有的分辨率观察细胞异质性。然而,当面对连续变化的生物学过程——如胚胎发育或免疫细胞分化时,传统方法往往只能识别离散的细胞类型,对处于过渡阶段的"中间态"细胞束手无策。这些相邻细胞状态间基因表达差异细微,就像试图在渐变色带上划分明确界限,导致现有算法出现大量误判。

正是这一技术瓶颈,促使悉尼大学Jean Yee Hwa Yang团队在《Genome Biology》发表突破性研究。他们开发的scClassify2创新性地采用消息传递神经网络(MPNN)架构,将基因表达比值转化为图网络的边特征,同时整合Gene2vec生成的基因共表达信息作为节点特征。这种双图层设计如同为细胞安装了"分子显微镜",能捕捉传统方法忽略的微妙表达模式。更巧妙的是,研究者引入序数回归(ordinal regression)算法,将细胞状态识别转化为系列条件概率问题,模拟了生物学过程中天然的时序关系。

关键技术包括:1) 基于8个公共scRNA-seq数据集构建基准测试框架;2) 采用Xenium平台亚细胞空间转录组数据验证跨平台适用性;3) 开发Wasserstein距离度量的基因嵌入重建损失函数;4) 建立包含30种组织预训练模型的网络服务器scClassify-catalogue。

scClassify2通过双图层架构整合生物学知识

研究团队发现,仅使用表达数据的单层网络准确率仅63%,而加入Gene2vec基因嵌入的双图层架构将性能提升至95%。如图1所示,MPNN通过边特征(基因表达对数比值)和节点特征(基因共表达模式)的信息传递,成功构建了区分细胞状态的分子拓扑图谱。

序数回归破解连续状态识别难题

在鼠标原肠胚形成数据中,传统多分类器将40%的E6.75期细胞误判为E7.0期,而序数回归模型准确率高达93%。这种算法通过链式条件概率建模,反映了发育过程中E6.5→E6.75→E7.0的自然时序关系(图2d-e)。

跨平台性能验证

在乳腺癌Xenium空间转录组数据中,scClassify2保持92%的识别精度,且空间区域间性能波动小于5%(图4)。这表明该方法不受技术平台限制,能适应新兴的单细胞检测技术。

这项研究的深远意义在于:首先,首次将消息传递神经网络引入单细胞分析,为理解基因调控网络提供了新视角;其次,建立的预训练模型库大幅降低单细胞研究的计算门槛;最后,提出的对数比值转换策略为跨数据集分析提供了稳定特征表示。正如作者强调,scClassify2不仅适用于发育生物学,在药物扰动响应、肿瘤微环境演变等医学研究领域同样具有广阔应用前景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号