基于多阶段特征选择与堆叠泛化的高精度癌症检测新方法

《Scientific Reports》:Multistage feature selection and stacked generalization model for cancer detection

【字体: 时间:2025年11月01日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对癌症筛查的可靠性问题,提出了一种结合混合Filter-Wrapper特征选择与堆叠分类器的新方法。研究人员通过三阶段特征选择策略(贪婪逐步搜索和最佳优先搜索)从WBC和LCP数据集中筛选关键特征,构建了以LR、NB、DT为基分类器、MLP为元分类器的堆叠模型。实验表明该方法在保持诊断准确性的同时将特征数从30/16个降至6/8个,在多种数据划分和10折交叉验证中均达到100%的准确率、灵敏度、特异度和AUC值。该研究为癌症早期诊断提供了高精度、可解释的AI解决方案,显著提升了临床应用的可行性。

  
在全球范围内,癌症已成为威胁人类健康的重大公共卫生问题。2020年数据显示,全球新发癌症病例超过1809万,年龄标准化发病率为190/10万。更令人担忧的是,约40%的癌症病例可以通过改善饮食、营养和运动等风险因素来预防。早期准确诊断对提高癌症治愈率至关重要,但传统诊断方法存在主观性强、效率低等局限性。
随着人工智能技术在医疗领域的深入应用,机器学习为癌症筛查带来了新的希望。然而,高维医疗数据中的冗余特征和模型可解释性不足,严重制约了AI在临床实践中的推广。现有研究往往面临特征选择效率与模型性能之间的平衡难题,以及单个分类器泛化能力有限的问题。
针对这些挑战,Sulekha Das等研究人员在《Scientific Reports》上发表了一项创新性研究,提出了一种结合多阶段特征选择和堆叠泛化的癌症检测新框架。该研究旨在解决特征冗余和模型可靠性两大核心问题,为实现精准、高效的癌症早期诊断提供技术支持。
研究人员采用的关键技术方法主要包括:1)三阶段混合特征选择(贪婪逐步搜索算法和最佳优先搜索算法);2)多种机器学习分类器(逻辑回归、朴素贝叶斯、决策树、支持向量机和多层感知器);3)堆叠泛化模型(以LR、NB、DT为基分类器,MLP为元分类器);4)10折交叉验证和多种数据划分策略(50-50、66-34、80-20);5)模型可解释性分析(SHAP、LIME)。使用的数据集包括威斯康星乳腺癌数据集(WBC,569例患者)和Kaggle肺癌数据集(LCP,1000例参与者)。
特征选择效果分析
通过混合Filter-Wrapper方法,WBC数据集特征从30个优化至6个,LCP数据集从16个优化至8个。特征选择不仅降低了计算复杂度,还显著提升了模型性能。如表6和表7所示,筛选出的特征与临床认知高度一致,如肺癌数据集中的"吸烟"、"胸痛"和"遗传风险"等关键指标。
模型性能比较
堆叠模型在全部实验设置中均达到100%的准确率、灵敏度、特异度和AUC值,显著优于单个分类器。如表8-19所示,即使特征数量大幅减少,堆叠模型在三种数据划分(50-50、66-34、80-20)和10折交叉验证中均保持稳定性能。多层感知器(MLP)也表现出色,在优化特征集上准确率超过98%。
统计显著性验证
置信区间分析显示(图5-6),堆叠模型在WBC和LCP数据集上的准确率置信区间均为(100.0, 100.0),表明结果具有高度稳定性。AUC值的置信区间分析进一步验证了模型的鲁棒性,堆叠模型在两类数据集上的AUC置信区间均接近完美水平。
可解释性分析
通过SHAP和LIME等可解释性技术,研究人员揭示了特征对预测结果的贡献度。如图4所示的蜜蜂群图清晰展示了各特征的重要性排序,与临床专业知识高度吻合,增强了模型在医疗实践中的可信度。
跨数据集验证
在Framingham心脏研究数据集上的额外测试中,该方法将特征从16个降至11个后,堆叠模型的准确率从92.95%提升至98.8%,AUC达到100%,证明了该方法的泛化能力。
本研究通过创新的多阶段特征选择与堆叠泛化模型,成功解决了癌症检测中的特征优化和模型可靠性问题。该方法不仅实现了完美的分类性能,还通过可解释性技术增强了临床适用性。未来研究可将该框架扩展到更多癌症类型和更大规模数据集,推动AI辅助癌症诊断的实际临床应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号