
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度图卷积网络的多组学整合模型deepCDG在癌症驱动基因鉴定中的创新应用
【字体: 大 中 小 】 时间:2025年07月28日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
本研究针对癌症驱动基因鉴定中多组学数据简单拼接导致性能受限的问题,开发了基于深度图卷积网络(GCN)的整合模型deepCDG。该模型通过共享参数GCN编码器提取突变、甲基化和表达组学特征,利用注意力机制动态整合跨组学信息,结合残差连接GCN预测器实现高精度鉴定。实验表明deepCDG在16种癌症类型中AUPRC达0.8274,较基线模型提升显著,并通过GNNExplainer解析基因模块互作网络。研究为癌症机制解析和靶向治疗提供了新工具,相关代码已开源。
癌症作为复杂的多因素疾病,其发生发展往往由特定基因突变驱动。尽管早期基于突变频率的方法如MutSigCV和Oncodrive-CLUST取得一定进展,但对低频驱动基因(突变率<1%)的识别仍存在明显局限。随着多组学数据和生物网络的积累,整合网络拓扑与分子特征的图神经网络(GNN)成为新趋势,但现有方法直接将多组学数据串联作为特征,导致组学间串扰和性能瓶颈。
西北工业大学计算机学院的研究团队在《Briefings in Bioinformatics》发表研究,提出深度图卷积网络整合模型deepCDG。该研究通过共享参数的GCN编码器分别处理基因突变、DNA甲基化和基因表达组学数据,采用注意力机制动态分配组学权重,结合残差连接GCN预测器,实现了跨组学信息的自适应融合。关键技术包括:1)基于TCGA的16种癌症29446例样本构建48维多组学特征;2)整合CPDB等6种PPI网络;3)采用GNNExplainer解析关键基因模块。
性能评估
在六种PPI网络上,deepCDG的AUPRC达0.8159-0.8274,较MTGCN等基线模型提升1.5-12.3%。特征扰动实验显示,在90%特征掩蔽下仍保持0.7以上AUPRC,验证了模型鲁棒性。
跨癌症验证
在BRCA、LUAD等15种癌症特异性分析中,deepCDG对UCEC的预测性能较次优模型提升12.33%,且86.5%新预测基因与CancerMine或CCGD数据库吻合。如COL7A1被证实与肾癌进展相关,GNGT1通过EMT激活促进肺腺癌转移。
机制解析
GO分析显示预测基因显著富集于肽激素响应(P=1.2×10-6)和胶原ECM(P=3.4×10-5)。KEGG通路分析揭示PI3K-Akt信号(P=7.8×10-4)的关键作用。药物敏感性实验发现ATM抑制剂CP466722可通过阻断DDR增强放疗效果。
基因模块
通过GNNExplainer构建的ATRX-ATM模块包含RAD51等已知驱动基因,实验证实ATRX缺失细胞依赖ATM通路完成DDR,解释了模块的生物学一致性。
该研究创新性地解决了多组学整合中的特征串扰问题,其注意力机制和残差连接设计为生物网络分析提供了新范式。预测的148个候选基因中,89个同时被文献和动物模型验证,为癌症靶点发现提供了高质量线索。未来可扩展至代谢网络等多维组学数据,进一步推动精准医疗发展。
生物通微信公众号
知名企业招聘