多表征深度学习框架GraphVar:基于突变特征的多癌种分类新突破

《Journal of Translational Medicine》:A multi-representation deep-learning framework for accurate multicancer classification

【字体: 时间:2025年11月20日 来源:Journal of Translational Medicine 7.5

编辑推荐:

  本研究针对现有癌症分类方法局限于少数癌种且仅使用单一基因组表征的问题,开发了多表征深度学习框架GraphVar。该框架整合突变衍生的图像特征(变异图谱)与数值特征(等位基因频率和突变频谱),在涵盖33种癌症类型的10,112例患者队列中实现了99.82%的准确率。通过Grad-CAM和KEGG通路富集分析验证了模型识别生物学相关基因的能力,为精准肿瘤诊断和治疗策略提供了有力工具。

  
癌症作为全球第二大死因,每年导致超过800万人死亡,且发病率预计在未来几十年将增长50%以上。准确鉴定癌症类型对于改善预后预测、指导治疗选择和理解肿瘤异质性具有重大意义。传统分子分类方法难以全面捕捉癌症异质性,而新一代测序技术的发展为全面表征肿瘤基因组改变提供了可能。研究人员发现,体细胞突变的累积是癌症发展的主要驱动力,且不同癌种的突变特征存在显著差异,例如肺癌中烟草烟雾导致的G>T颠换和黑色素瘤中紫外线诱导的C>T置换。
尽管机器学习方法在癌症预测分类中展现出潜力,但现有方法大多局限于有限癌种,且通常将基因组信息编码为单一表征形式,无法充分利用突变的空间分布等关键信息。近年来,深度学习技术虽在癌症分类中取得进展,如CPEM框架对31种癌症类型达到84%准确率,MuAt框架在24种肿瘤类型中实现89%准确率,但这些方法仍存在癌种覆盖有限、表征单一的问题。
为此,He等人在《Journal of Translational Medicine》上发表了题为"A multi-representation deep-learning framework for accurate multicancer classification"的研究,开发了GraphVar框架。该研究整合了互补的突变衍生特征,通过多表征深度学习实现了更准确的癌症分类。
研究方法主要包括:从TCGA数据库获取10,640个肿瘤样本的体细胞突变数据,经去重后保留10,112个样本,涵盖33种癌症类型;将样本按7:1:2比例划分为训练集、验证集和测试集。GraphVar框架核心采用双分支架构:图像分支将基因级变异类别编码为像素强度,构建空间变异图谱,由ResNet-18提取特征;数值分支构建包含30个等位基因频率和6个突变频谱的36维特征矩阵,由Transformer编码器建模。两分支特征融合后通过分类头输出癌症类型概率分布。模型训练使用Adam优化器,采用dropout和早停策略防止过拟合。通过Grad-CAM生成激活图谱可视化关键基因组区域,并利用KEGG通路富集分析验证生物学相关性。
研究结果方面,特征重要性分析显示,C>T变异是最重要的判别特征(重要性评分1.000),其次是T>G颠换(0.849)。人群特异性等位基因频率(如gnomAD_ASJ_AF)和非癌症队列基线变异也表现出显著影响力。在独立测试集上,GraphVar实现了99.82%的准确率、99.85%的精确度、99.82%的召回率和99.82%的F1分数。虽在少数样本量较小的癌种如肾嫌色细胞癌(KICH)和胸腺瘤(THYM)上表现略有下降,但微平均AUC-PR达到0.998,混淆矩阵显示跨类别误分类极少。
模型可解释性分析通过Grad-CAM生成归因图谱,成功识别出癌种特异性驱动基因。在膀胱尿路上皮癌(BLCA)中,TP53、ERBB2、STAG2和KDM6A获得高评分;乳腺癌(BRCA)中突出显示BRCA1、CDH1和TP53;肾透明细胞癌(KIRC)中VHL、PBRM1、SETD2、BAP1和PIK3CA被确认为关键基因。这些发现与各癌种已知生物学机制高度一致。
消融研究表明,变异图谱分支是主要预测信号来源(F1分数99.55%),数值特征分支提供互补信息(F1分数61.38%)。双分支整合实现最优性能(F1分数99.82%),证实多表征融合的协同价值。架构比较显示,ResNet-18与Transformer组合优于更复杂的ResNet-50和InceptionV3。变异类型编码的消融实验证实,区分SNP、INS和DEL对分类性能至关重要。
生物学验证通过KEGG通路富集分析显示,GraphVar识别的高重要性基因在KIRC中显著富集于PI3K-Akt信号通路等癌症相关通路,在BRCA中富集于乳腺癌、类固醇激素生物合成和昼夜节律通路等,证实模型捕捉到功能连贯的癌种特异性特征。
研究结论与讨论部分指出,GraphVar通过整合空间变异图谱和数值基因组特征,建立了高效的多表征框架,在33种癌症分类中表现出卓越性能。模型决策由生物学相关基因驱动,并通过通路富集分析验证了其生物学合理性。该框架有望在临床中作为诊断辅助工具,特别是在低分化肿瘤中辅助病理诊断,为精准肿瘤学的治疗决策、患者分层和靶点发现提供支持。未来需在多机构临床队列中进行外部验证,并探索整合拷贝数变异和表观遗传特征等多组学数据,进一步优化空间编码和可解释性框架,推动其向临床部署平台发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号