
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习与真实世界数据的早发性结直肠癌筛查年龄前预测模型构建及风险因素解析
【字体: 大 中 小 】 时间:2025年06月30日 来源:JMIR Cancer 3.3
编辑推荐:
推荐:针对45岁以下人群早发性结直肠癌(EOCRC)预测难题,研究人员利用OneFlorida+临床研究联盟的电子健康记录(EHR)数据,通过机器学习(ML)构建结肠癌(CC)和直肠癌(RC)独立预测模型。研究采用倾向评分匹配控制混杂变量,发现免疫/消化系统疾病、继发恶性肿瘤等关键风险因子,模型AUC最高达0.829(RC)和0.811(CC),为年轻人群早期筛查提供新策略。
结直肠癌(CRC)已成为美国年轻人群癌症相关死亡的首要原因,其中早发性结直肠癌(EOCRC,诊断年龄<50岁)发病率持续攀升。尽管美国预防医学工作组已将筛查起始年龄下调至45岁,但年轻患者确诊时往往已进展至晚期,生存率显著降低。这一现象背后的风险因素尚未明确,且传统筛查手段对无症状年轻群体覆盖不足,亟需开发基于客观数据的早期预测工具。
为应对这一挑战,来自美国OneFlorida+临床研究联盟的研究团队在《JMIR Cancer》发表了一项开创性研究。他们利用结构化电子健康记录(EHR)数据,首次针对45岁以下人群构建了结肠癌(CC)和直肠癌(RC)的独立机器学习(ML)预测模型。研究通过严格的倾向评分匹配控制性别、种族等混杂因素,采用极端梯度提升(XGBoost)、随机森林(RF)等算法,在0-5年不同预测时间窗内实现最高0.829(RC)和0.811(CC)的AUC值,并揭示免疫缺陷、消化系统紊乱等核心风险因子,为年轻人群精准筛查奠定基础。
关键技术方法
研究基于OneFlorida+联盟的EHR数据,纳入1358例CC患者(匹配6790例对照)和560例RC患者(匹配2800例对照)。通过国际疾病分类(ICD)代码确定病例,采用1:5倾向评分匹配控制混杂变量。特征工程包含两种策略:排除CRC相关特征或所有癌症相关特征。使用XGBoost、RF等算法构建模型,通过SHAP值解析关键预测因子,并采用自助抽样法验证稳定性。
研究结果
模型性能
在排除CRC相关特征的策略下,RF模型对CC的0年预测窗口AUC达0.811(95% CI 0.808-0.814),XGBoost对RC的同期预测AUC更高(0.829)。随着预测窗口延长至5年,模型性能逐渐下降(CC:0.686;RC:0.721)。排除所有癌症特征后,模型AUC降幅约0.02-0.05,但仍保持临床参考价值。
关键风险因素
SHAP分析显示:
讨论与意义
该研究首次系统验证了ML模型在EOCRC早期预测中的可行性,其创新性体现在三方面:
研究局限性包括EHR数据缺失、CT检查指征不明等问题。未来可通过整合基因组学数据、优化特征工程进一步提升模型性能。这项成果不仅为年轻人群CRC筛查策略制定提供循证依据,更开创了真实世界数据驱动癌症预测的新范式。
生物通微信公众号
知名企业招聘