可解释性深度学习结合RNA-Seq数据进行多癌分类:集成卷积神经网络与基于SHAP的可解释性

《Informatics in Medicine Unlocked》:Explainable Deep Learning for Multi-Cancer Classification Using RNA-Seq Data: Integrating CNN Models with SHAP-Based Interpretability.

【字体: 时间:2026年06月03日 来源:Informatics in Medicine Unlocked CS9.5

编辑推荐:

  人工智能(Artificial Intelligence, AI)已成为肿瘤学中有前途的工具,支持癌症早期检测和精准治疗策略。深度学习(Deep Learning, DL)模型在分类复杂的RNA测序(RNA-Seq)基因表达数据方面取得了成功。然而,由于其“黑

  
人工智能(Artificial Intelligence, AI)已成为肿瘤学中有前途的工具,支持癌症早期检测和精准治疗策略。深度学习(Deep Learning, DL)模型在分类复杂的RNA测序(RNA-Seq)基因表达数据方面取得了成功。然而,由于其“黑箱”性质缺乏可解释性,限制了其临床应用。为了解决这一问题,本研究提出了一种结合卷积神经网络(Convolutional Neural Networks, CNNs)与沙普利加和解释(Shapley Additive Explanations, SHAP)的可解释深度学习架构,用于多癌分类及基因层面的解释。该CNN模型包含两个卷积-批归一化-池化- Dropout块以及一个密集分类头,使用来自五种癌症亚型的2086个RNA-Seq样本进行训练,每个样本包含971个归一化的基因表达值,并转换为32×32灰度图像。CNN模型在验证集上的平均准确率为96.4%,在独立测试集上的准确率为90%。测试性能有所下降表明可能存在泛化能力的局限性,但模型在评估设置中保持了具有竞争力的预测能力。为了提高可解释性,采用了局部和全局SHAP分析来量化个体样本和人群层面的基因层面贡献。全局SHAP分析识别出的关键基因包括GRN(平均SHAP值为4.25)、PCNA(2.2)和PLP2(2.0),紧随其后的是MIF和PUF60,其值均超过1.5。分析揭示了模型衍生的模式和跨癌症基因表达趋势,识别出GRN、PUF60和PCNA等在不同癌症亚型中显示一致影响的基因。这些基因与炎症、RNA剪接和DNA复制等生物学过程相关。这种双层可解释性框架增强了模型透明度,并提供了关于共同模式和亚型特异性模式的见解。研究结果表明,将基于CNN的分类与局部和全局SHAP解释相结合,有望在提供具有竞争力的预测性能的同时,提供可解释的基因层面见解。
癌症作为全球主要死因之一,其早期诊断和分类仍面临巨大挑战。由于癌细胞具有天然异质性和异常活性,早期检测尤为困难。RNA测序(RNA-Seq)作为一种强大的分子谱 profiling 技术,能够识别新转录本和异构体,并提供低噪声的归一化数据用于癌症分类和预测。然而,RNA-Seq基因表达分析由于其高维度、特征冗余以及基因间复杂的非线性关系,难以被传统方法理解。尽管机器学习和深度学习(Deep Learning, DL)技术可通过自动化特征提取提高诊断效率和准确性,但人工智能驱动的系统常被视为计算“黑箱”,缺乏透明度限制了其在临床决策中的可信度。可解释人工智能(Explainable Artificial Intelligence, XAI)旨在提供人类可理解的模型决策解释,以解决深度学习神经网络的“黑箱”问题。现有研究多集中于单一癌症类型或特定数据模态(如医学影像),且大多仅依赖局部或全局可解释性,缺乏将两者结合的多癌RNA-Seq数据分析框架。因此,开展此项研究旨在构建一个结合卷积神经网络(Convolutional Neural Networks, CNNs)与沙普利加和解释(Shapley Additive Explanations, SHAP)的可解释深度学习架构,以识别亚型特异性和跨癌症基因重要性模式,从而在保持竞争预测性能的同时提高模型透明度。论文发表在《Informatics in Medicine Unlocked》。

研究人员利用Mendeley Data公开仓库中的RNA-Seq数据集开展研究,该队列包含2086个样本,涵盖BRCA、KIRC、LUAD、LUSC和UCEC五种癌症亚型。主要技术方法包括:首先对971个RPKM归一化的基因表达值进行预处理,通过公式将其缩放至8位灰度范围(0-255),并填充至32×32灰度图像以适配CNN输入,此过程旨在捕捉非线性依赖而非生物空间相关性;其次,构建包含两个卷积块(含Conv2D、BatchNormalization、MaxPooling2D、Dropout层)和密集分类头的CNN模型,使用Adam优化器和稀疏类别交叉熵损失函数进行训练,并通过10折交叉验证及不同训练-验证分割比例优化模型;最后,利用SHAP GradientExplainer计算局部和全局特征归因,通过背景数据集评估基因贡献,并进行敏感性分析以验证结果稳健性。

研究结果表明,CNN模型在多癌分类中表现出良好的预测能力。在分类性能方面,经过交叉验证,模型在五个癌症亚型间表现出一致的分类性能,平均验证准确率达到96.4%。在独立测试集上,模型取得了90%的准确率和0.861的Matthews相关系数(Matthews Correlation Coefficient, MCC),虽略低于交叉验证结果,但反映了真实的泛化能力,且优于支持向量机(Support Vector Machine, SVM),与逻辑回归(Logistic Regression)相当。局部SHAP分析识别了各亚型的特异性基因,如BRCA中的GRN和MIF,KIRC中的PUF60和GRN,LUAD中的GPR56和NPDC1,LUSC中的MUC1和MFSD10,以及UCEC中的RHOA和PLP2。这些基因在各自亚型患者中出现频率较高,显示出亚型特异性模式。

在综合局部解释方面,研究者分析了跨癌症的基因表达趋势,发现包括GRN、BIRC5、S100A4、MUC1等在内的13个基因在五种癌症类型中均反复出现,提示这些基因可能在模型层面具有共同的特征重要性。全局SHAP分析则量化了人群层面的基因重要性,结果显示GRN、PUF60、PCNA和PLP2是最具影响力的基因,其中GRN在所有癌症类型中表现出最高的平均SHAP值。通过结合局部和全局视图,研究者确认了GRN、MUC1和PLP2等基因的一致性贡献。敏感性分析显示,改变背景集大小、top-k基因数量及稳定性阈值,所选稳定基因集的Jaccard相似度较高,表明基于SHAP的稳定基因识别具有一定的鲁棒性。

在讨论部分,研究人员指出虽然模型在交叉验证中表现优异,但独立测试集与验证集之间的性能差异提示泛化能力可能受数据分布影响。研究人员强调,SHAP识别出的基因重要性应被视为模型衍生的信号,而非确凿的生物因果证据,需经外部验证和互补生物学分析确认。功能富集分析显示,重叠基因主要富集于白细胞介素信号、细胞因子信号及免疫调节通路,涉及细胞增殖、炎症反应和免疫调节等关键肿瘤生长过程。研究局限性包括依赖单一数据集、缺乏外部验证、数据转化为2D图像可能引入代表性偏差,以及SHAP参数选择对结果的影响。

研究结论部分总结道,将CNN与基于SHAP的可解释性相结合,为利用RNA-Seq数据进行多癌分类提供了一个有效框架,实现了具有竞争力的预测性能和解模型输出。通过整合全局和聚合局部SHAP分析,模型识别出了跨多种癌症亚型的一致性基因重要性模式。这些模式提示了可能与潜在生物学过程相关的重复模型衍生信号,包括GRN、BIRC5、MUC1、STAT1和CDKN1A在内的13个基因表现出一致贡献,通路富集分析表明其与肿瘤生长、凋亡和免疫调节相关。研究结论强调,虽然可解释深度学习为探索多癌分类中的分子信号提供了有意义的见解,但其可解释性发现具有探索性质,应视为生成假设的见解,需通过外部队列和多组学数据集进一步验证以确立其生物学意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号