基于机器学习与真实世界数据的早发性结直肠癌筛查年龄前预测模型构建及风险因素解析

【字体: 时间:2025年06月30日 来源:JMIR Cancer 3.3

编辑推荐:

  推荐:针对45岁以下人群早发性结直肠癌(EOCRC)预测难题,研究人员利用OneFlorida+临床研究联盟的电子健康记录(EHR)数据,通过机器学习(ML)构建结肠癌(CC)和直肠癌(RC)独立预测模型。研究采用倾向评分匹配控制混杂变量,发现免疫/消化系统疾病、继发恶性肿瘤等关键风险因子,模型AUC最高达0.829(RC)和0.811(CC),为年轻人群早期筛查提供新策略。

  

结直肠癌(CRC)已成为美国年轻人群癌症相关死亡的首要原因,其中早发性结直肠癌(EOCRC,诊断年龄<50岁)发病率持续攀升。尽管美国预防医学工作组已将筛查起始年龄下调至45岁,但年轻患者确诊时往往已进展至晚期,生存率显著降低。这一现象背后的风险因素尚未明确,且传统筛查手段对无症状年轻群体覆盖不足,亟需开发基于客观数据的早期预测工具。

为应对这一挑战,来自美国OneFlorida+临床研究联盟的研究团队在《JMIR Cancer》发表了一项开创性研究。他们利用结构化电子健康记录(EHR)数据,首次针对45岁以下人群构建了结肠癌(CC)和直肠癌(RC)的独立机器学习(ML)预测模型。研究通过严格的倾向评分匹配控制性别、种族等混杂因素,采用极端梯度提升(XGBoost)、随机森林(RF)等算法,在0-5年不同预测时间窗内实现最高0.829(RC)和0.811(CC)的AUC值,并揭示免疫缺陷、消化系统紊乱等核心风险因子,为年轻人群精准筛查奠定基础。

关键技术方法
研究基于OneFlorida+联盟的EHR数据,纳入1358例CC患者(匹配6790例对照)和560例RC患者(匹配2800例对照)。通过国际疾病分类(ICD)代码确定病例,采用1:5倾向评分匹配控制混杂变量。特征工程包含两种策略:排除CRC相关特征或所有癌症相关特征。使用XGBoost、RF等算法构建模型,通过SHAP值解析关键预测因子,并采用自助抽样法验证稳定性。

研究结果

模型性能
在排除CRC相关特征的策略下,RF模型对CC的0年预测窗口AUC达0.811(95% CI 0.808-0.814),XGBoost对RC的同期预测AUC更高(0.829)。随着预测窗口延长至5年,模型性能逐渐下降(CC:0.686;RC:0.721)。排除所有癌症特征后,模型AUC降幅约0.02-0.05,但仍保持临床参考价值。

关键风险因素
SHAP分析显示:

  • 肿瘤相关特征:继发恶性肿瘤、子宫良性肿瘤等与CC/RC风险正相关;
  • 消化系统紊乱:胃肠出血、肠梗阻等疾病在两类癌症中均具高预测权重;
  • 免疫异常:HIV、HPV感染与RC风险显著相关,骨髓增殖性疾病对CC预测贡献突出;
  • 体重异常:低BMI(≤18.5)是共同危险因素,而超重呈现保护效应;
  • 血液疾病:缺铁性贫血(尤其对CC)在排除癌症特征后成为首要预测指标。

讨论与意义
该研究首次系统验证了ML模型在EOCRC早期预测中的可行性,其创新性体现在三方面:

  1. 临床实用性:通过0-5年多时间窗预测,为无症状年轻人群提供风险分层工具,弥补现有筛查指南的年龄盲区;
  2. 生物学启示:发现免疫抑制(如HIV)、慢性炎症(如IBD)与EOCRC的强关联,支持"炎症-癌症"转化理论在年轻患者中的特殊性;
  3. 方法学突破:采用SHAP可解释性分析揭示非传统风险因子(如缺铁性贫血),为后续机制研究提供新方向。

研究局限性包括EHR数据缺失、CT检查指征不明等问题。未来可通过整合基因组学数据、优化特征工程进一步提升模型性能。这项成果不仅为年轻人群CRC筛查策略制定提供循证依据,更开创了真实世界数据驱动癌症预测的新范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号