基于可解释机器学习的结直肠癌术后五年复发预测工具:多中心回顾性队列研究

《Hormones & Cancer》:Web-based explainable machine-learning tool for predicting five-year recurrence of colorectal cancer after curative resection: multicentre retrospective cohort study

【字体: 时间:2025年11月05日 来源:Hormones & Cancer

编辑推荐:

  本研究针对结直肠癌术后高达30%的五年复发率且传统分期方法难以精准分层个体风险的问题,开发了一种基于Web的可解释机器学习工具。研究人员通过分析1,789例根治性切除术患者的临床数据,构建随机森林模型,验证曲线下面积(AUC)达0.83-0.84,准确率87%。该系统可在一秒内生成个性化复发风险估计,为临床决策提供实时数据支持。

  
结直肠癌是全球第三大常见恶性肿瘤,也是癌症相关死亡的第二大原因。尽管根治性手术和辅助治疗显著改善了患者预后,但术后复发仍是严峻挑战——约9-25%的结肠癌和15-30%的直肠癌患者在五年内出现复发,且复发高峰集中在术后12-18个月。传统分期系统和切缘评估无法准确区分低危和高危个体,导致临床医生必须在强化治疗的潜在获益与毒性风险、费用增加及生活质量下降之间艰难权衡。因此,开发能够进行个体化风险分层的可靠工具成为迫切的临床需求。
为应对这一挑战,台湾国防医学院三军总医院的研究团队开展了一项多中心回顾性队列研究,开发了一套基于Web的人工智能临床决策支持系统(AI-CDSS)。该研究回顾性分析了2013-2023年间1,789例接受根治性切除术的结直肠癌患者数据,涵盖人口统计学、肿瘤特征、免疫组化标记和实验室指标四大类特征。研究人员采用四种基于树的机器学习算法(随机森林、轻量梯度提升机、梯度提升分类器和极限梯度提升)进行模型训练,并通过SHAP(沙普利加性解释)分析提供可解释的预测结果。
研究结果显示,在1,789例患者中,406例(22.7%)出现术后复发。随机森林模型在验证集上表现最佳,AUC值为0.83,准确率达87%,阳性预测值85%,阴性预测值87%,F1分数0.64。最重要的十个预测因子包括病理分期、M分类、癌胚抗原(CEA)水平、碳水化合物抗原19-9(CA19-9)水平、表皮生长因子受体(EGFR)表达百分比、靶向治疗接受情况、术前白蛋白水平、血小板计数、淋巴细胞计数和白细胞计数,这些因子共同贡献了约43%的模型重要性。
研究人员将最优模型部署为网络应用程序,临床医生可在诊疗过程中输入患者数据,系统在一秒内生成针对特定治疗场景的五年复发概率估计。该界面直观分为五个输入面板:人口统计学与生活方式、肿瘤特征、免疫组化、实验室结果和治疗方式,支持动态风险比较和循证治疗规划。
关键技术方法包括:从三军总医院结直肠癌登记系统中提取1,789例患者数据;使用四种树基机器学习算法进行模型训练;采用时间划分(1-9月训练,10-12月验证)的验证策略;利用SHAP分析进行特征重要性解释;开发基于Web的实时预测系统。
3.1 基线患者特征
复发组患者更年轻(平均63.8岁),且具有更多不良临床病理特征:IV期肿瘤(49.8% vs 4.0%)、T4浸润(25.6% vs 5.4%)、N2淋巴结转移(35.5% vs 11.0%)、R1切缘(10.8% vs 3.3%)和低分化肿瘤(15.0% vs 6.4%)均更常见。免疫组化显示复发组EGFR表达更高(24.8% vs 21.6%),术前血清白蛋白更低(3.57 vs 3.72 g/dL),CEA(28.0 vs 8.5 ng/mL)和CA19-9(48.5 vs 24.5 U/mL)水平更高。
3.2 模型开发与特征重要性
SHAP分析证实肿瘤负荷、生物学标记、治疗强度和宿主因素是复发风险的关键驱动因素。高阶病理分期、M分类、CEA、CA19-9、EGFR表达、靶向治疗、血小板和白细胞计数与风险增加相关,而白蛋白和淋巴细胞计数与风险降低相关。
3.3 验证集上的ML模型性能
所有模型在验证集上均表现出强判别能力,AUC值介于0.83-0.84之间。随机森林模型在准确率(87%)、阳性预测值(85%)和F1分数(0.64)上表现最为均衡。
3.4 AI-CDSS部署与临床整合
基于其最优性能平衡,随机森林模型被选为AI-CDSS核心预测引擎。系统部署在医院内网,提供直观的数据输入和风险显示功能,并通过临床医生焦点小组反馈不断优化用户体验。
该研究的优势在于使用多中心前瞻性登记数据、采用时间划分验证策略、整合多维度预测因子以及提供可解释的预测结果。局限性包括回顾性设计可能存在的未测量混杂因素、缺乏生活方式和遗传数据、需要定期更新模型以及中等灵敏度(51%)。
未来研究方向包括开展前瞻性随机对照试验评估临床影响、整合基因组学和影像组学数据优化模型、开发患者界面提高随访参与度,以及进行卫生经济学分析评估成本效益。
这项研究成功开发并验证了一种可解释的AI-CDSS,能够快速准确地预测结直肠癌术后五年复发风险。通过提供透明、个性化的风险估计,该系统有望改善辅助治疗决策和随访策略,最终减轻结直肠癌的全球负担。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号