基于机器学习的肝细胞癌肺转移风险预测模型开发与验证

【字体: 时间:2025年08月07日 来源:Discover Oncology 2.9

编辑推荐:

  本研究针对肝细胞癌(HCC)肺转移(HCC-PM)缺乏有效预测工具的临床难题,通过SEER数据库大样本分析,应用SMOTE算法和Boruta特征选择,构建了随机森林(RF)预测模型(AUC达0.894),开发了可视化风险评估工具,为个体化诊疗提供新策略。

  

肝细胞癌(HCC)作为全球第六大常见恶性肿瘤,其肺转移(HCC-PM)发生率高达4.8%,是导致患者死亡的主要原因之一。尽管手术和肝移植仍是主要治疗手段,但术后5年复发率超过70%,而现有预测模型普遍存在AUC值低于0.80、时间跨度局限等问题。更棘手的是,临床亟需能平衡敏感性与特异性的工具,以避免漏诊高风险患者。

赣南医学院第一临床医学院联合浙江省大学医学院附属金华医院的研究团队,通过分析SEER数据库2010-2018年间20,346例HCC患者数据,开发出首个基于机器学习的HCC-PM预测系统。该研究创新性地整合了临床参数与治疗信息,最终建立的随机森林(RF)模型在验证队列中展现出0.830的AUC值,相关成果发表于《Discover Oncology》。

研究采用三大关键技术:1) 应用SMOTE算法处理4.8%的HCC-PM样本不平衡问题;2) 通过Boruta算法筛选出年龄、T分期等9个关键特征;3) 采用SHAP方法实现模型可解释性分析。

【特征选择】

通过Spearman相关分析和Boruta算法确定9个独立风险因素:年龄(OR=0.988)、T3/T4分期(OR=5.100/5.749)、N1分期(OR=5.718)等,其中未接受手术患者风险显著升高(aOR=0.063)。

【模型比较】

在8种机器学习算法中,RF表现最优:训练集AUC 0.894(灵敏度0.878),验证集AUC 0.830(灵敏度0.868),Brier评分0.041。XGBoost和逻辑回归(LR)分列二三位。

【临床工具】

开发的在线计算器(https://lalalaanjila.shinyapps.io/Random_Forest_app/)整合TNM分期、治疗史等参数,支持个性化风险评估。SHAP分析显示手术缺失(红色特征)对风险贡献最大

研究结论指出,该模型首次实现HCC-PM的多维度风险评估,其优势在于:1) 突破传统nomogram性能瓶颈(AUC提升约10%);2) 通过SHAP解释机制增强临床可信度;3) 识别亚洲裔(OR=0.648)和未放疗患者(aOR=0.236)等高风险亚群。尽管存在SEER数据库缺乏AFP等指标的局限,但该工具为优化监测策略提供了量化依据,特别是对T3/T4期患者的随访间隔制定具有指导价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号