基于机器学习的可解释性模型预测肝内胆管癌远处转移风险:一项基于人群的队列研究

【字体: 时间:2025年06月19日 来源:Discover Oncology 2.8

编辑推荐:

  本研究通过SEER数据库构建了首个基于机器学习(ML)的肝内胆管癌(ICC)远处转移(DM)预测模型,采用LASSO回归、Boruta算法和递归特征消除(RFE)筛选关键变量,开发了8种ML算法。梯度提升机(GBM)模型表现最优(AUC=0.802),SHAP分析揭示手术、N分期、肿瘤分级等10项核心预测因子,并开发了在线计算器(https://bijinzhe.shinyapps.io/icc_dm_shiny/),为临床个性化诊疗提供决策支持。

  

背景
肝内胆管癌(ICC)作为第二常见的原发性肝癌,具有高度侵袭性和不良预后,其中远处转移(DM)患者中位生存期仅12.9个月。由于缺乏早期诊断标志物,约40%患者确诊时已发生DM。本研究利用SEER数据库(2004-2021年)8536例ICC患者数据(DM占比33%),旨在开发可解释的机器学习(ML)预测模型。

方法
通过三种特征选择方法交叉验证:

  1. LASSO回归:筛选年龄、T分期(T1-4
    )、N分期(N0-1
    )等10项变量;
  2. Boruta算法:识别手术、放疗等12项关键因子;
  3. 递归特征消除(RFE):以随机森林(RF)为基模型确定最优特征集。

采用SMOTE技术解决数据不平衡问题,构建8种ML模型(包括逻辑回归LR、支持向量机SVM、梯度提升机GBM等),通过10轮10折交叉验证优化超参数。模型性能以AUC、AUPRC、Brier评分等评估,并利用SHAP(SHapley Additive exPlanations)进行特征重要性解析。

结果

  1. 模型性能:GBM模型在验证集表现最佳,AUC达0.802(训练集0.905),AUPRC为0.571,Brier评分最低(0.177),校准曲线与决策曲线(DCA)显示优异临床适用性。
  2. 关键预测因子:SHAP全局分析显示,手术(肝切除/移植)是最强保护因素(SHAP值↓),而N1
    分期、高肿瘤分级(G3-4
    )、大肿瘤尺寸(>7 cm)显著增加DM风险。
  3. 亚组解析:非手术患者中,T4
    期和年龄>70岁贡献度最高;肝移植组则显示更低的特征贡献波动。

讨论

  1. 临床意义:GBM模型较传统逻辑回归更能捕捉非线性关系,如放疗通过抑制血管生成降低DM风险(SHAP值↓),而化疗可能通过外泌体途径促进转移(SHAP值↑),与既往研究吻合。
  2. 创新性:首次整合多模态特征选择方法,并开发可视化在线工具(https://bijinzhe.shinyapps.io/icc_dm_shiny/),支持实时风险评估。
  3. 局限性:SEER数据库缺乏生化标志物(如CA19-9)和分子特征数据,未来需结合影像组学或液体活检优化模型。

结论
本研究建立的GBM模型为ICC患者DM风险提供了高精度、可解释的预测框架,有助于早期识别高危患者并指导个体化干预,最终改善预后。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号