基于多组学数据整合与密集连接图卷积网络的癌症亚型精准分类模型DEGCN研究

【字体: 时间:2025年07月19日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对癌症亚型分类的临床需求,创新性地提出DEGCN模型,通过三通道变分自编码器(VAE)进行多组学降维,结合密集连接图卷积网络(GCN)实现肾癌亚型的高精度分类。该模型在TCGA肾癌数据集上取得97.06%±2.04%的交叉验证准确率,显著优于传统算法,并在乳腺癌(89.82%±2.29%)和胃癌(88.64%±5.24%)数据集上展现优异泛化能力,为精准医疗提供了新的多组学整合分析范式。

  

癌症的异质性是临床治疗面临的主要挑战之一,尤其在肾癌领域,不同亚型如肾嫌色细胞癌(KICH)、肾透明细胞癌(KIRC)和肾乳头状细胞癌(KIRP)的预后差异显著。传统单组学分析方法难以全面捕捉肿瘤的分子特征,而现有深度学习模型在多层网络训练中易出现梯度消失和过度平滑问题。安徽中医药大学医学信息工程学院的研究团队在《BMC Bioinformatics》发表的研究中,开发了名为DEGCN的新型深度学习框架,通过整合基因组(CNV)、转录组(mRNA)和蛋白质组(RPPA)数据,实现了癌症亚型的精准分类。

研究采用三通道变分自编码器(VAE)进行多组学降维,构建患者相似性网络(PSN)捕捉样本间关系,并创新性地引入密集连接机制增强图卷积网络(GCN)的特征传播能力。关键技术包括:1)基于TCGA数据库获取745例肾癌患者的CNV、RNA-seq和RPPA数据;2)使用相似性网络融合(SNF)整合多组学相似性矩阵;3)设计四层密集连接GCN架构缓解梯度消失问题。

方法设计


研究团队构建的DEGCN模型工作流程显示,多组学数据经VAE编码后生成低维特征,与SNF融合的PSN共同输入密集连接GCN。该设计使模型同时学习分子特征和样本拓扑关系,其中VAE的KL散度正则化项(公式4)保障了潜在空间的连续性。

性能验证
在肾癌分类任务中,DEGCN的准确率(97.06%±2.04%)显著高于传统机器学习方法(RF 95.29%,DT 92.88%)和现有深度模型(MoGCN 95.84%,ERGCN 94.06%)。消融实验证实,完整模型比单独使用SNF+GCN(82.15%)或VAE+GCN(94.90%)提升显著,证明多组学整合与密集连接的双重优势。

跨癌种验证
模型在TCGA乳腺癌(4亚类)和胃癌(4亚类)数据集分别达到89.82%和88.64%的准确率,其中乳腺癌分类的F1-score(89.51%±2.38%)优于SVM(84.38%)等基线方法,显示其强大的泛化能力。

讨论与意义
该研究突破性地解决了三个关键问题:1)通过VAE概率编码克服传统降维方法(如PCA)的非线性表征局限;2)利用密集连接机制(公式13)实现深层GCN的稳定训练;3)加权复合损失函数(公式5)平衡多组学贡献。临床层面,模型输出的亚型特征可指导个体化治疗决策,如KIRC亚型对靶向治疗的敏感性预测。未来研究可探索动态权重调整和代谢组学整合,进一步提升模型在泛癌种应用中的效能。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号