基于电子病历的机器学习模型预测胃食管结合部癌风险:一项多中心回顾性研究

【字体: 时间:2025年08月19日 来源:Clinical and Experimental Medicine 3.5

编辑推荐:

  本研究针对胃食管结合部癌(GEJC)与胃食管反流病(GERD)鉴别诊断的临床难题,通过分析401对匹配患者的电子病历数据,采用LASSO、Boruta和逻辑回归筛选特征变量,构建了XGBoost等四种机器学习模型。最优模型AUC达0.907,首次证实BMI、血红蛋白(HB)、反流症状等指标对GEJC的预测价值,为临床早期筛查提供了可操作性工具。

  

胃食管结合部癌(GEJC)近年来发病率持续攀升,却因缺乏特异性症状常被误诊为普通胃食管反流病(GERD)。当患者出现反酸、吞咽困难等症状时,医生往往面临两难抉择:是选择昂贵且有创的内镜检查,还是可能错过早期诊断机会?这种临床困境直接导致GEJC确诊时多属晚期,5年生存率不足30%。更棘手的是,现有预测工具或依赖非常规检测指标,或预测效能有限,难以满足基层医疗需求。

针对这一临床痛点,同济大学医学院附属同济医院消化疾病研究所的研究团队开展了一项突破性研究。研究人员创新性地利用医院电子病历系统,收集2009-2023年间401例GEJC患者与401例GERD患者的临床数据,通过倾向评分匹配(PSM)控制混杂因素后,采用LASSO回归、Boruta算法和逻辑回归三重筛选,最终锁定年龄、BMI、血红蛋白(HB)等9个临床易获取指标。基于这些特征构建的XGBoost模型展现出惊人准确度——在测试集中AUC值高达0.907,意味着模型能正确识别90.7%的GEJC病例,远超既往报道的其他预测工具。

这项研究的技术路线清晰而严谨:首先通过PSM平衡组间差异,采用十折交叉验证优化LASSO的λ参数,筛选出11个非零系数变量;再与Boruta算法选出的11个特征取交集,最终通过多因素逻辑回归确定独立预测因子。研究团队特别引入SHAP解释性分析,首次量化揭示BMI是影响GEJC风险的最强因素(SHAP值0.32),其次是血红蛋白(0.28)和反流症状(0.25)。这种"黑箱模型透明化"的处理,使临床医生能直观理解模型决策依据。

研究结果部分呈现多项重要发现:

  1. 1.

    特征筛选:LASSO回归筛选出年龄、BMI等11个变量,与Boruta算法结果交叉验证后,最终确定9个核心预测因子,包括实验室指标(HB、中性粒细胞)和临床症状(吞咽困难、厌食)。

  2. 2.

    模型比较:XGBoost在测试集表现最优(AUC 0.907),其校准曲线与理想线几乎重合,Brier评分仅0.088,显著优于随机森林(AUC 0.845)和支持向量机(AUC 0.803)。

  3. 3.

    临床转化:决策曲线分析(DCA)显示,当阈值概率在10%-90%区间时,使用该模型的净获益显著高于"全检"或"不检"策略,证实其临床实用性。

这项发表于《Clinical and Experimental Medicine》的研究具有三重里程碑意义:首先,它首次证明常规临床数据通过机器学习转化后,可成为GEJC筛查的可靠工具;其次,模型使用的BMI、血常规等指标在基层医院即可获取,极大提升了推广可行性;最重要的是,SHAP解释框架的引入,打破了机器学习模型在医疗领域的"黑箱"障碍。正如讨论部分强调的,该模型有望整合到电子病历系统中,当患者输入基础信息时自动生成风险评分,指导内镜检查优先级决策。未来研究可进一步验证模型在不同人种和医疗环境中的普适性,并探索添加新兴生物标志物以提升预测精度。

值得注意的是,研究也存在单中心回顾性设计的局限性,且未纳入幽门螺杆菌感染状态等潜在影响因素。但瑕不掩瑜,这项工作为癌症早期筛查提供了创新范式——通过挖掘电子病历的"沉睡数据",以可解释的人工智能赋能临床决策,最终实现肿瘤防治的关口前移。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号