基于多组学数据与图Kolmogorov-Arnold网络的癌症分类及生物标志物可解释性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月30日 来源：Scientific Reports 3.8

编辑推荐：

　　本研究针对癌症诊断中多组学数据整合的挑战，提出创新性深度学习框架MOGKAN，通过整合mRNA、miRNA和DNA甲基化数据与蛋白质相互作用网络，实现对31种癌症类型的精准分类（准确率96.28%）。该研究采用DESeq2、LIMMA和LASSO回归进行特征选择，结合图Kolmogorov-Arnold网络（GKAN）增强模型可解释性，并通过GO/KEGG分析验证关键生物标志物如MCL1、GALNT6的生物学意义，为临床转化提供新思路。

癌症作为高度异质性疾病，其精准诊断长期受限于多组学数据的高维性和复杂性。传统机器学习方法如支持向量机（SVM）和随机森林（RF）难以捕捉分子层面的非线性关系，而常规图神经网络（GNN）又面临可解释性不足的瓶颈。美国爱达荷大学（University of Idaho）联合沙特阿拉伯朱夫大学（Jouf University）的研究团队在《Scientific Reports》发表突破性成果，开发出多组学图Kolmogorov-Arnold网络（MOGKAN），通过创新性地融合Kolmogorov-Arnold定理与图注意力机制，实现了癌症分类与生物标志物发现的双重突破。

研究采用TCGA Pan-Cancer Atlas数据库的9,171例DNA甲基化、10,668例mRNA和10,465例miRNA样本，通过三步特征选择流程：DESeq2（差异基因表达分析）、LIMMA（线性模型微阵列分析）和LASSO回归（最小绝对收缩选择算子）降维，构建基于STRING数据库的蛋白质-蛋白质相互作用（PPI）网络作为图结构基础。模型核心采用图注意力卷积层（GATConv）与可训练单变量函数相结合的架构，通过4个注意力头和2048维隐藏层实现特征传播。

研究结果

性能验证
MOGKAN在31类癌症分类中达到96.28%准确率，显著优于现有CNN（95.70%）和GNN（94.61%）模型。单组学对比显示miRNA数据对模型贡献最大，其剔除导致性能下降最显著（Δ准确率>0.8%）。类型盲测中，模型对前列腺癌（TCGA-PRAD）保持98.47%准确率，证实其强泛化能力。

关键生物标志物
通过注意力权重分析鉴定出十大核心基因：

MCL1（调控线粒体氧化磷酸化，PMID:28978427）
GALNT6（介导上皮-间质转化，PMID:39245709）
ITGB3⁺外泌体亚群（结直肠癌转移标志物，PMID:37040507）
LINC01410（ceRNA调控网络参与者，PMID:32104067）

通路富集
GO分析揭示生物过程主要富集于呼吸爆发调控（P<10^-15），分子功能集中于磷脂酰肌醇-3-磷酸结合（GO:0032266）。KEGG显示最显著通路为粘蛋白型O-聚糖生物合成（-log₁₀(p)=1.8），其次为鞘脂代谢（与治疗抵抗相关）和催乳素信号通路（乳腺癌调控）。

结论与意义

该研究首次将Kolmogorov-Arnold表示理论应用于多组学整合，其创新性体现在：

技术层面：通过可解释的GKAN架构替代传统黑箱模型，节点更新公式（公式3）明确展示特征聚合过程；
临床价值：鉴定的生物标志物群涵盖表观遗传（DNA甲基化）、转录调控（mRNA）和转录后调控（miRNA）多维度机制；
方法论启示：提出的"早期整合"策略虽存在模态特异性信号损失，但为复杂多组学分析提供高效范式。

局限性在于使用静态PPI网络，未来将拓展动态互作组学数据。该框架为癌症分型提供新工具，其生物标志物列表（表7）尤其对PI3K-AKT通路异常肿瘤的靶向治疗具有指导价值。研究开源代码与数据（https://www.idahofallshighered.org/vakanski/Codes_Data/）将推动可解释AI在精准医学中的应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号