基于机器学习驱动的多靶点药物发现:结肠癌生物标志物特征与ABF-CatBoost模型的精准治疗突破

【字体: 时间:2025年08月23日 来源:npj Precision Oncology 8

编辑推荐:

  本研究针对结肠癌(CC)治疗中分子通路复杂性和耐药性挑战,通过整合基因表达、突变数据和蛋白质互作网络,开发了ABF-CatBoost人工智能模型。该研究鉴定出TP53、KRAS和CCNA2等关键靶点,实现98.6%的预测准确率,显著优于传统机器学习方法。研究成果为个性化多靶点治疗提供新范式,其计算框架可拓展至其他癌症类型,发表于《npj Precision Oncology》。

在全球癌症负担日益加重的背景下,结肠癌(Colon Cancer, CC)作为发病率第二高的恶性肿瘤,其早期诊断和治疗仍面临重大挑战。尽管筛查技术如结肠镜检查和粪便潜血试验(FOBT)已广泛应用,但肿瘤异质性和生物标志物敏感性不足导致近半数患者确诊时已进展至晚期。传统单靶点疗法更因耐药性问题疗效有限,这促使研究者转向基于多组学数据的计算肿瘤学新策略。

为突破这些瓶颈,Tingting Liu和Lifan Zhong等研究者开发了融合自适应细菌觅食优化(ABF)与CatBoost算法的创新模型。研究团队从Kaggle平台获取包含194例样本的基因表达数据集,通过差异表达基因(DEG)分析、KEGG通路富集和蛋白质互作网络(PPI)构建,发现TP53、KRAS和CCNA2三个核心枢纽基因。这些基因在肿瘤组织中显著高表达(p=0.000),并通过生存分析证实TP53与最佳预后相关。研究采用ABF算法动态调整参数,结合CatBoost处理高维分类数据的优势,最终构建的预测模型在准确率(98.6%)、特异性(0.984)等指标上全面超越随机森林(RF)和支持向量机(SVM)等传统方法。

关键技术方法包括:1)从公共数据库获取117例粘膜组织和77例肿瘤组织的基因表达数据;2)使用STRING数据库构建PPI网络识别枢纽基因;3)通过GEPIA工具验证基因表达与生存关联;4)开发ABF-CatBoost混合算法优化特征选择;5)采用IC50值评估13种药物敏感性。

研究结果

Overall survival (OS)

生存曲线显示TP53表达组5年生存率最高(91%),显著优于KRAS和CCNA2组。TP53的卓越预后价值使其成为最具临床意义的生物标志物。

Metabolism pathway

PPI网络分析揭示:KRAS主要参与RAS/MAPK和PI3K/AKT通路;CCNA2调控CDK1/2等细胞周期蛋白;TP53则通过ATM、MDM2等节点调控DNA损伤应答。这些互作网络为理解药物代谢途径(ADME)提供分子基础。

Network analysis

转录调控网络鉴定出MYC、E2F1等关键转录因子,这些因子通过调控枢纽基因影响肿瘤增殖和凋亡途径,为多靶点药物设计提供新方向。

Toxicity risks

卡培他滨与TP53表达呈强正相关,而CCNA2对多数药物敏感性预测价值最高。风险评分分析显示基因表达水平与化疗敏感性显著相关(p<0.05)。

Performance evaluation

ABF-CatBoost在肺癌和CC数据集均保持97%以上准确率,其增量特征整合实验显示:添加KEGG通路信息使准确率提升7%,最终整合ABF优化后达98.6%。

该研究通过计算框架的创新,成功解决了结肠癌异质性带来的治疗难题。其核心价值在于:1)首次将ABF优化与CatBoost结合应用于癌症多组学数据分析;2)证实TP53等枢纽基因的临床预测价值;3)构建可扩展至其他癌种的通用分析流程。研究者特别指出,该模型可整合至临床决策系统,通过实时监测耐药机制动态调整治疗方案。未来需扩大样本量并开展前瞻性临床试验,以推动这一精准医学范式向临床转化。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号