
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于百万级电子病历的乳腺癌短期风险预测模型构建与验证
【字体: 大 中 小 】 时间:2025年07月31日 来源:Clinical Biomechanics 1.4
编辑推荐:
本研究针对乳腺癌筛查中晚期诊断率高的临床痛点,基于1,039,212份电子病历(EMR),采用CatBoost决策树算法构建了首个人群级短期(1年)乳腺癌预测模型。创新性整合家族史、手术咨询次数、TSH等34项EMR常规指标,AUC-ROC达0.85,为临床优先筛查决策提供了可操作性工具。
乳腺癌作为全球女性最高发的恶性肿瘤,尽管筛查技术不断进步,仍有大量患者在确诊时已处于晚期。耶路撒冷希伯来大学(The Hebrew University of Jerusalem)计算机科学与工程学院的Ofer Feinstein团队发现,现有风险评估模型多聚焦5-10年长期预测,且依赖基因检测等非普适性指标。为此,研究人员创新性地利用医疗保健组织MHS长达36年(1985-2021)的百万级电子病历(EMR)数据,构建了首个面向临床实践的短期(1年)乳腺癌预测模型。
研究采用CatBoost梯度提升决策树算法,整合了34类常规临床指标,包括人口统计学特征、癌症家族史、手术记录(乳腺活检次数等)、生化指标(TSH、维生素D等)及用药史等。通过Shapley Additive Explanations(SHAP)值解析特征贡献度,发现年龄、手术咨询频率、乳腺活检史等传统指标外,收缩压、甲状腺功能等非典型因素也具有显著预测价值。模型在测试集中展现出0.85的受试者工作特征曲线下面积(AUC-ROC),显著优于现有长期预测工具。
关键技术方法包括:1) 从MHS医疗系统中提取1,039,212名女性成员的纵向EMR数据;2) 采用CatBoost算法处理类别不平衡问题;3) 应用SHAP值进行特征重要性排序;4) 通过时间滑动窗口验证模型稳定性。
【结果】
【讨论】
该研究突破性地将预测周期压缩至1年,使模型能识别已存在亚临床病灶的患者。通过完全基于EMR常规数据的设计,解决了基因检测类模型推广受限的问题。值得注意的是,甲状腺功能等非传统指标的纳入,暗示了乳腺癌发生可能存在内分泌调控新机制。
这项发表于《Clinical Biomechanics》的研究,为优化乳腺癌筛查资源配置提供了循证决策工具。其方法论框架可扩展至其他癌症的短期预测,标志着精准预防医学向实时化、普适化迈出关键一步。模型已获以色列卫生部批准,即将在Maccabi医疗系统开展前瞻性验证。
生物通微信公众号
知名企业招聘