基于机器学习与通路信息矩阵的肝细胞癌关键信号通路预测研究

【字体: 时间:2025年05月07日 来源:Computational Biology and Chemistry 2.6

编辑推荐:

  本研究针对肝细胞癌(HCC)患者基因表达特征与代谢紊乱的关联机制,创新性地构建样本-通路信息矩阵(SPIM),结合随机森林模型实现94%准确率的关键通路预测。研究人员通过差异基因表达分析筛选120个DEGs,建立蛋白互作网络(PPI)并富集通路,最终发现花生四烯酸代谢通路及其关键基因CYP2C9/CYP2C8/CYP2B6在HCC发生中的核心作用,为肝硬化相关HCC的早期诊断提供新思路。

  

肝细胞癌(HCC)作为全球第三大癌症死因,其发病机制与代谢紊乱的复杂关联始终是研究难点。随着肥胖和糖尿病发病率攀升,非酒精性脂肪肝(NAFLD)相关HCC病例激增,但早期诊断标志物匮乏导致患者5年生存率不足3%。更棘手的是,酒精性肝病(ALD)与NAFLD导致的HCC存在分子机制重叠,使得临床鉴别诊断困难重重。面对这一挑战,来自国内某高校的研究团队在《Computational Biology and Chemistry》发表创新研究,通过整合基因表达谱与通路富集分析,开发出基于机器学习的关键通路预测系统。

研究采用GEO数据库的HCC微阵列数据,通过log2转换和分位数归一化预处理后,运用主成分分析(PCA)筛选出58个上调和62个下调的差异表达基因(DEGs)。随后利用STRING数据库构建蛋白互作网络(PPI),采用MCODE算法进行模块聚类,并通过KEGG通路富集分析建立基因-通路关联矩阵。最终将基因表达矩阵与通路矩阵相乘获得样本-通路信息矩阵(SPIM),采用随机森林模型进行特征重要性排序。

【数据收集】研究团队从GEO数据库严格筛选非病毒感染的HCC样本数据集,确保研究聚焦于代谢紊乱相关的HCC亚型。通过设置"homo sapiens"和"expression profiling by array"等筛选条件,获得符合研究目标的转录组数据。

【DEG分析】采用limma包进行差异分析,设置|log2FC|>1且p<0.05的标准,鉴定出120个显著DEGs。PCA分析显示前两个主成分(PC1和PC2)能有效区分疾病与正常样本,证实数据质量可靠。

【PPI网络与通路富集】将DEGs导入STRING数据库构建互作网络,网络包含112个节点和327条边。通过Cytoscape的MCODE插件识别出5个关键模块,其中包含CYP2C9、CYP2C8等基因的模块与代谢通路显著相关。通路富集发现花生四烯酸代谢、药物代谢-细胞色素P450等通路显著富集。

【SPIM构建与机器学习】创新性地将基因表达矩阵(18202×50)与基因-通路矩阵(18202×186)相乘,生成50×186维的SPIM矩阵。随机森林模型十折交叉验证显示,该模型区分HCC样本的准确率达94%,ROC曲线下面积(AUC)为0.97。

【关键通路识别】特征重要性分析揭示花生四烯酸代谢通路最具判别力,其包含的CYP2C9、CYP2C8和CYP2B6基因在HCC中异常活跃。这些基因编码的细胞色素P450酶参与外源性物质代谢,其失调可能导致肝细胞恶性转化。

研究结论部分强调,该方法首次实现从基因表达数据到关键信号通路的端到端预测,突破传统单一基因标记物的局限。特别值得注意的是,发现的CYP450家族基因与临床观察的代谢紊乱型HCC高度吻合,为开发新型诊断panel提供分子基础。讨论部分指出,该SPIM框架可扩展应用于其他癌症类型,但需在更大队列中验证稳定性。作者建议未来可整合单细胞测序数据,以解析肿瘤微环境中通路活性的异质性。

这项研究的核心价值在于:一是建立可解释的机器学习框架,将高通量数据转化为临床可操作的 pathway-level 标志物;二是证实代谢通路异常(特别是花生四烯酸代谢)在非病毒性HCC中的核心地位;三是为精准医学时代的HCC分型诊断提供新范式。该成果对改善肝硬化患者监测策略具有重要转化意义,尤其适用于日益增长的NAFLD相关HCC高危人群。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号