
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于混合采样与树集成学习的结直肠癌生存预测模型:解决高度不平衡数据集的创新策略
【字体: 大 中 小 】 时间:2025年04月26日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对结直肠癌(CRC)临床数据中生存预测的高度不平衡问题,提出结合重复编辑最近邻(RENN)与合成少数类过采样技术(SMOTE)的混合采样方法,联合轻量梯度提升机(LGBM)等树基分类器,显著提升1年生存预测敏感性至72.30%。该研究为临床决策提供了高精度预测工具,发表于《Scientific Reports》。
结直肠癌(CRC)是全球第三大癌症死因,其5年生存率在不同分期中存在显著差异。临床决策亟需精准的生存预测工具,但现有模型面临两大挑战:一是医疗数据固有的类别不平衡问题(如1年生存案例仅占10%),二是传统方法对少数类识别敏感性不足。这种不平衡导致模型偏向多数类预测,可能延误高风险患者的干预时机。尽管SMOTE等采样技术已被应用,但单一方法易引入噪声或丢失关键信息。
伊朗德黑兰科技大学的研究团队通过分析SEER数据库中42,764例腺癌患者数据,创新性地将RENN去噪与SMOTE过采样结合,构建了针对1/3/5年生存预测的树集成模型。研究采用5折交叉验证,比较了决策树(DT)、随机森林(RF)、极限梯度提升(XGBoost)和LGBM等算法的性能,重点解决1年生存预测中1:10的极端不平衡问题。
关键技术包括:1) 基于SEER数据库的临床数据预处理(剔除缺失值、合并稀疏类别);2) 混合采样策略(RENN去除多数类噪声后SMOTE生成少数类样本);3) 基于ANOVA和Crammer's V检验的特征选择;4) 树基分类器的性能对比(评估指标含灵敏度、F1值等)。
数据集和预处理
从SEER数据库筛选2010-2015年18-85岁腺癌患者数据,剔除非CRC死亡病例后保留42,764条记录。通过合并低频率类别(如将<2%占比的病理类型归为"其他")和离散化连续变量(如淋巴结检查数分5级),最终保留16个临床特征。ANOVA检验剔除种族、性别等非显著变量(p>0.05),Crammer's V分析避免特征冗余。
平衡方法
对比ENN、RENN、SMOTE及其组合的效果。可视化显示RENN+SMOTE在保留数据分布的同时最优平衡类别:先通过RENN迭代去除多数类中与k近邻标签不一致的样本(减少原始数据27.2%),再用SMOTE生成合成样本使少数类占比提升至50%。该策略在1年预测中使LGBM的灵敏度较基线提升9倍。
分类结果
1年预测任务中,RENN+SMOTE+LGBM组合达到72.30%灵敏度(无采样仅8.04%),F1值26.95%;3年预测中RENN+LGBM表现最佳(灵敏度80.81%);5年平衡数据时LGBM直接分类即达63.03%灵敏度。统计检验证实RENN+SMOTE的灵敏度提升显著(p<0.00001),但特异性降低34.59%,体现精度-召回权衡。
研究结论强调,针对不同不平衡程度需采用差异化策略:极端不平衡(1:10)时RENN+SMOTE最具优势,而轻度不平衡(3年预测)单用RENN更高效。该成果为CRC预后预测提供了方法论创新,其混合采样框架可扩展至其他高死亡率癌症研究。未来方向包括探索缺失值填补策略(如近邻插补)和优化采样比例,以进一步平衡计算成本与预测性能。
生物通微信公众号
知名企业招聘