基于多组学整合与机器学习算法的胰腺癌甲基化驱动基因标志物发现及靶向药物筛选研究

【字体: 时间:2025年06月16日 来源:Computers in Biology and Medicine 7.0

编辑推荐:

  本研究针对胰腺癌(PanCa)早期诊断难、治疗靶点匮乏的临床挑战,通过整合TCGA/ICGC/GEO多组学数据,结合kNN/RF机器学习算法与LASSO-Cox回归模型,系统鉴定出CD36、UGT1A1等7个甲基化驱动基因(MEDEGs),发现其与消化系统稳态通路显著相关,并通过分子对接证实芹菜素-7-O-葡糖苷酸等天然化合物对UGT1A1的高亲和力,为胰腺癌精准诊疗提供了新型生物标志物和药物靶点。

  

胰腺癌(Pancreatic Cancer, PanCa)作为最具侵袭性的恶性肿瘤之一,五年生存率不足10%,其诊疗面临两大核心难题:缺乏早期诊断标志物和有效治疗靶点。尽管近年来表观遗传学研究揭示了DNA甲基化在肿瘤发生中的关键作用,但如何从海量组学数据中筛选出具有临床转化价值的甲基化驱动基因(Methylation-regulated Differentially Expressed Genes, MEDEGs),仍是横亘在研究者面前的重大挑战。更棘手的是,传统单组学分析方法难以捕捉基因表达与甲基化修饰间的复杂调控关系,而现有靶向药物对胰腺癌特异性靶点的覆盖度严重不足。

针对这一系列科学难题,来自国内科研团队的研究人员在《Computers in Biology and Medicine》发表了一项突破性研究。该研究创新性地构建了"数据驱动-算法筛选-实验验证"的三阶段研究框架:首先通过TCGA-PAAD数据集筛选120个差异表达基因(DEGs)和181个差异甲基化位点(DMGs),经严格交叉验证获得7个关键MEDEGs;随后运用随机森林(RF)和k近邻(kNN)算法构建预测模型,结合自适应LASSO-Cox回归分析生存关联;最终通过单细胞转录组验证和分子动力学模拟,发现UGT1A1等靶点与天然化合物的稳定结合模式。

关键技术方法
研究整合TCGA、ICGC和7个GEO数据集(包括GSE74071等),采用FDR≤0.05和|log2FC|>2.0的筛选标准。运用机器学习算法(RF/kNN)进行特征选择,通过LinkedOmics平台进行多组学关联分析。采用Homology建模和AutoDock工具完成分子对接,使用GROMACS进行100ns分子动力学模拟验证结合稳定性。

主要研究结果

甲基化驱动基因的鉴定与验证
在TCGA-PAAD队列中鉴定出CD36、UGT1A1、TFF1、S100P、MUC13、CALHM3和ANKRD44等7个核心MEDEGs。单细胞数据分析显示TFF1、S100P和MUC13具有细胞类型特异性表达模式,而蛋白质组学验证了CD36等基因在多个独立数据集中的一致性。

功能与通路分析
KEGG富集分析揭示这些基因显著富集于"胃肠道上皮维护"和"消化系统稳态"通路。CD36不仅展现预后价值,还与免疫微环境失调显著相关,其低表达特征在GSE16515芯片数据中得到验证。

药物靶向潜力评估
分子对接显示:芹菜素-7-O-葡糖苷酸与UGT1A1形成稳定复合物;儿茶素和表儿茶素对TFF1、芦丁对MUC13分别表现出纳摩尔级结合亲和力。动态模拟证实这些配体-靶标复合物在100ns内保持稳定构象。

结论与展望
该研究通过多学科交叉策略,首次系统描绘了胰腺癌甲基化驱动基因的分子图谱,其中TFF1/S100P/MUC13/UGT1A1展现出作为新型生物标志物和药物靶点的双重价值。特别值得注意的是,研究提出的"计算预测-实验验证"范式,为其他恶性肿瘤的靶点发现提供了可借鉴的方法学框架。团队开发的GitHub开源代码库(https://github.com/Akash-WASY/pancreatic-cancer)进一步增强了研究的可重复性。这项成果不仅为胰腺癌早期诊断提供了潜在液体活检标志物,更为开发表观遗传靶向药物奠定了理论基础,标志着向胰腺癌精准医疗迈出了关键一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号