
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多组学数据与图Kolmogorov-Arnold网络的癌症分类及生物标志物可解释性研究
【字体: 大 中 小 】 时间:2025年07月30日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对癌症诊断中多组学数据整合的挑战,提出创新性深度学习框架MOGKAN,通过整合mRNA、miRNA和DNA甲基化数据与蛋白质相互作用网络,实现对31种癌症类型的精准分类(准确率96.28%)。该研究采用DESeq2、LIMMA和LASSO回归进行特征选择,结合图Kolmogorov-Arnold网络(GKAN)增强模型可解释性,并通过GO/KEGG分析验证关键生物标志物如MCL1、GALNT6的生物学意义,为临床转化提供新思路。
癌症作为高度异质性疾病,其精准诊断长期受限于多组学数据的高维性和复杂性。传统机器学习方法如支持向量机(SVM)和随机森林(RF)难以捕捉分子层面的非线性关系,而常规图神经网络(GNN)又面临可解释性不足的瓶颈。美国爱达荷大学(University of Idaho)联合沙特阿拉伯朱夫大学(Jouf University)的研究团队在《Scientific Reports》发表突破性成果,开发出多组学图Kolmogorov-Arnold网络(MOGKAN),通过创新性地融合Kolmogorov-Arnold定理与图注意力机制,实现了癌症分类与生物标志物发现的双重突破。
研究采用TCGA Pan-Cancer Atlas数据库的9,171例DNA甲基化、10,668例mRNA和10,465例miRNA样本,通过三步特征选择流程:DESeq2(差异基因表达分析)、LIMMA(线性模型微阵列分析)和LASSO回归(最小绝对收缩选择算子)降维,构建基于STRING数据库的蛋白质-蛋白质相互作用(PPI)网络作为图结构基础。模型核心采用图注意力卷积层(GATConv)与可训练单变量函数相结合的架构,通过4个注意力头和2048维隐藏层实现特征传播。
性能验证
MOGKAN在31类癌症分类中达到96.28%准确率,显著优于现有CNN(95.70%)和GNN(94.61%)模型。单组学对比显示miRNA数据对模型贡献最大,其剔除导致性能下降最显著(Δ准确率>0.8%)。类型盲测中,模型对前列腺癌(TCGA-PRAD)保持98.47%准确率,证实其强泛化能力。
关键生物标志物
通过注意力权重分析鉴定出十大核心基因:
通路富集
GO分析揭示生物过程主要富集于呼吸爆发调控(P<10-15),分子功能集中于磷脂酰肌醇-3-磷酸结合(GO:0032266)。KEGG显示最显著通路为粘蛋白型O-聚糖生物合成(-log10(p)=1.8),其次为鞘脂代谢(与治疗抵抗相关)和催乳素信号通路(乳腺癌调控)。
该研究首次将Kolmogorov-Arnold表示理论应用于多组学整合,其创新性体现在:
局限性在于使用静态PPI网络,未来将拓展动态互作组学数据。该框架为癌症分型提供新工具,其生物标志物列表(表7)尤其对PI3K-AKT通路异常肿瘤的靶向治疗具有指导价值。研究开源代码与数据(https://www.idahofallshighered.org/vakanski/Codes_Data/)将推动可解释AI在精准医学中的应用。
生物通微信公众号
知名企业招聘