基于多组学数据与图Kolmogorov-Arnold网络的癌症分类及生物标志物可解释性研究

【字体: 时间:2025年07月30日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对癌症诊断中多组学数据整合的挑战,提出创新性深度学习框架MOGKAN,通过整合mRNA、miRNA和DNA甲基化数据与蛋白质相互作用网络,实现对31种癌症类型的精准分类(准确率96.28%)。该研究采用DESeq2、LIMMA和LASSO回归进行特征选择,结合图Kolmogorov-Arnold网络(GKAN)增强模型可解释性,并通过GO/KEGG分析验证关键生物标志物如MCL1、GALNT6的生物学意义,为临床转化提供新思路。

  

癌症作为高度异质性疾病,其精准诊断长期受限于多组学数据的高维性和复杂性。传统机器学习方法如支持向量机(SVM)和随机森林(RF)难以捕捉分子层面的非线性关系,而常规图神经网络(GNN)又面临可解释性不足的瓶颈。美国爱达荷大学(University of Idaho)联合沙特阿拉伯朱夫大学(Jouf University)的研究团队在《Scientific Reports》发表突破性成果,开发出多组学图Kolmogorov-Arnold网络(MOGKAN),通过创新性地融合Kolmogorov-Arnold定理与图注意力机制,实现了癌症分类与生物标志物发现的双重突破。

研究采用TCGA Pan-Cancer Atlas数据库的9,171例DNA甲基化、10,668例mRNA和10,465例miRNA样本,通过三步特征选择流程:DESeq2(差异基因表达分析)、LIMMA(线性模型微阵列分析)和LASSO回归(最小绝对收缩选择算子)降维,构建基于STRING数据库的蛋白质-蛋白质相互作用(PPI)网络作为图结构基础。模型核心采用图注意力卷积层(GATConv)与可训练单变量函数相结合的架构,通过4个注意力头和2048维隐藏层实现特征传播。

研究结果

性能验证
MOGKAN在31类癌症分类中达到96.28%准确率,显著优于现有CNN(95.70%)和GNN(94.61%)模型。单组学对比显示miRNA数据对模型贡献最大,其剔除导致性能下降最显著(Δ准确率>0.8%)。类型盲测中,模型对前列腺癌(TCGA-PRAD)保持98.47%准确率,证实其强泛化能力。

关键生物标志物
通过注意力权重分析鉴定出十大核心基因:

  • MCL1(调控线粒体氧化磷酸化,PMID:28978427)
  • GALNT6(介导上皮-间质转化,PMID:39245709)
  • ITGB3+外泌体亚群(结直肠癌转移标志物,PMID:37040507)
  • LINC01410(ceRNA调控网络参与者,PMID:32104067)

通路富集
GO分析揭示生物过程主要富集于呼吸爆发调控(P<10-15),分子功能集中于磷脂酰肌醇-3-磷酸结合(GO:0032266)。KEGG显示最显著通路为粘蛋白型O-聚糖生物合成(-log10(p)=1.8),其次为鞘脂代谢(与治疗抵抗相关)和催乳素信号通路(乳腺癌调控)。

结论与意义

该研究首次将Kolmogorov-Arnold表示理论应用于多组学整合,其创新性体现在:

  1. 技术层面:通过可解释的GKAN架构替代传统黑箱模型,节点更新公式(公式3)明确展示特征聚合过程;
  2. 临床价值:鉴定的生物标志物群涵盖表观遗传(DNA甲基化)、转录调控(mRNA)和转录后调控(miRNA)多维度机制;
  3. 方法论启示:提出的"早期整合"策略虽存在模态特异性信号损失,但为复杂多组学分析提供高效范式。

局限性在于使用静态PPI网络,未来将拓展动态互作组学数据。该框架为癌症分型提供新工具,其生物标志物列表(表7)尤其对PI3K-AKT通路异常肿瘤的靶向治疗具有指导价值。研究开源代码与数据(https://www.idahofallshighered.org/vakanski/Codes_Data/)将推动可解释AI在精准医学中的应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号