基于百万级电子病历的乳腺癌短期风险预测模型构建与验证

【字体: 时间:2025年07月31日 来源:Clinical Biomechanics 1.4

编辑推荐:

  本研究针对乳腺癌筛查中晚期诊断率高的临床痛点,基于1,039,212份电子病历(EMR),采用CatBoost决策树算法构建了首个人群级短期(1年)乳腺癌预测模型。创新性整合家族史、手术咨询次数、TSH等34项EMR常规指标,AUC-ROC达0.85,为临床优先筛查决策提供了可操作性工具。

  

乳腺癌作为全球女性最高发的恶性肿瘤,尽管筛查技术不断进步,仍有大量患者在确诊时已处于晚期。耶路撒冷希伯来大学(The Hebrew University of Jerusalem)计算机科学与工程学院的Ofer Feinstein团队发现,现有风险评估模型多聚焦5-10年长期预测,且依赖基因检测等非普适性指标。为此,研究人员创新性地利用医疗保健组织MHS长达36年(1985-2021)的百万级电子病历(EMR)数据,构建了首个面向临床实践的短期(1年)乳腺癌预测模型。

研究采用CatBoost梯度提升决策树算法,整合了34类常规临床指标,包括人口统计学特征、癌症家族史、手术记录(乳腺活检次数等)、生化指标(TSH、维生素D等)及用药史等。通过Shapley Additive Explanations(SHAP)值解析特征贡献度,发现年龄、手术咨询频率、乳腺活检史等传统指标外,收缩压、甲状腺功能等非典型因素也具有显著预测价值。模型在测试集中展现出0.85的受试者工作特征曲线下面积(AUC-ROC),显著优于现有长期预测工具。

关键技术方法包括:1) 从MHS医疗系统中提取1,039,212名女性成员的纵向EMR数据;2) 采用CatBoost算法处理类别不平衡问题;3) 应用SHAP值进行特征重要性排序;4) 通过时间滑动窗口验证模型稳定性。

【结果】

  1. 预测模型特征:除已知风险因素外,首次发现甲状腺功能(TSH)、收缩压等指标与乳腺癌风险显著相关。手术咨询次数(OR=2.31)和乳腺活检史(OR=3.17)成为最强预测因子。
  2. 模型性能:在区分1年内确诊患者时,AUC-ROC达0.85(95%CI 0.83-0.87),灵敏度82.3%,特异性79.6%。
  3. 临床应用:模型可将高危人群(TOP 5%)的阳性预测值提升至12.8%,是普通人群的7倍。

【讨论】
该研究突破性地将预测周期压缩至1年,使模型能识别已存在亚临床病灶的患者。通过完全基于EMR常规数据的设计,解决了基因检测类模型推广受限的问题。值得注意的是,甲状腺功能等非传统指标的纳入,暗示了乳腺癌发生可能存在内分泌调控新机制。

这项发表于《Clinical Biomechanics》的研究,为优化乳腺癌筛查资源配置提供了循证决策工具。其方法论框架可扩展至其他癌症的短期预测,标志着精准预防医学向实时化、普适化迈出关键一步。模型已获以色列卫生部批准,即将在Maccabi医疗系统开展前瞻性验证。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号