基于残差网络和层级类激活映射的可解释性单细胞RNA测序注释方法scCAM及其关键基因发现

【字体: 时间:2025年07月18日 来源:Gene Reports 1.0

编辑推荐:

  针对单细胞RNA测序(scRNA-seq)注释方法缺乏生物学可解释性和关键基因识别能力的问题,研究人员开发了基于残差网络(ResNet18)和层级类激活映射(LayerCAM)的scCAM方法。该方法通过构建基因表达灰度图像,结合反向类特异性梯度分析,在多个基准数据集上实现最高准确率(较现有方法提升6.8%-39.6%),并成功识别出与注释相关的标记基因和差异表达基因,为生物医学研究提供新的工具支持。

  

在生命科学领域,单细胞RNA测序(scRNA-seq)技术如同打开了观察细胞异质性的显微镜,让研究者能够逐个解析细胞的转录特征。然而随着数据量的爆炸式增长,传统基于聚类和人工标记的方法显得力不从心——既需要研究者具备深厚的领域知识,又难以应对未定义标记基因的情况。虽然深度学习模型如ACTINN、scBERT等提升了注释效率,但"黑箱"特性使其无法揭示决定细胞类型的关键基因,这严重制约了其在生物医学研究中的应用价值。

针对这一瓶颈,福建师范大学的研究团队在《Gene Reports》发表创新性成果,提出名为scCAM的可解释性自动注释方法。该方法巧妙地将基因表达数据转化为灰度图像,利用残差网络(ResNet18)提取特征,并通过层级类激活映射(LayerCAM)技术追溯决策过程,最终在保持高精度的同时锁定关键基因。研究涉及9个不同物种和平台的数据集,包括68,579细胞的Zheng68K_PBMCs数据集和4个胰腺数据集,采用交叉验证和独立测试评估性能。技术核心在于:1) 基因表达灰度图像化表征;2) ResNet18网络结构优化;3) LayerCAM梯度反向传播分析;4) 关键基因的空间位置重要性计算。

【scCAM outperforms other advanced methods】

实验数据显示,scCAM在Zheng68K_PBMCs大型数据集上的准确率显著超越现有方法6.8%-39.6%,尤其在跨平台胰腺数据整合分析中展现出强大鲁棒性。通过10折交叉验证,其平均准确率达92.7%,证明模型具有稳定的泛化能力。

【Explainable analysis identifies annotation-related genes】

在Segerstolpe胰腺数据集的可解释性分析中,scCAM成功捕捉到GCG+α细胞中的经典标记基因GCG和INS,同时发现TM4SF4等新型潜在标记基因。与差异表达分析结果对比显示,top100关键基因中有87%与已知标记基因或差异表达基因重叠。

这项研究的意义在于首次将计算机视觉领域的可解释性技术深度应用于scRNA-seq分析,其创新性体现在:1) 建立基因表达与图像特征的映射关系;2) 开发兼顾精度与可解释性的双模块架构;3) 验证关键基因与生物学标记的高度一致性。正如作者Ya Zhang和Yongzhao Du在讨论部分强调的,该方法不仅解决了注释效率问题,更重要的是为发现新型标记基因提供了计算依据,未来在肿瘤微环境解析等领域具有广阔应用前景。论文中披露的完整代码库(github.com/zyLAB/scCAM)将进一步推动该技术的普及应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号