《Franklin Open》:Machine learning based Ensemble Approach for Cancer Detection and Classification with explainable AI techniques
编辑推荐:
本文针对高维基因表达数据中存在的冗余和噪声问题,提出了一种结合相关性特征选择(CFS)和樽海鞘群优化(SSA)的两阶段特征选择策略,并构建了包含支持向量机(SVM)、多层感知器(MLP)等在内的集成学习模型。研究在六种公开癌症微阵列数据上验证了方法的有效性,结果显示SSA显著提升了预测性能并大幅减少了所选基因数量,且基于Boosting的集成方法在准确性和鲁棒性上均优于Bagging。此外,通过引入可解释人工智能(XAI)技术(如SHAP),揭示了关键基因对模型决策的贡献,为临床提供了透明、可信的诊断依据,推动了可靠且可解释的癌症诊断框架的发展。
癌症是全球范围内导致死亡的主要原因之一,早期诊断对于提高治疗效果和患者生存率至关重要。随着基因测序技术的发展,基因表达数据为癌症研究提供了前所未有的机会,但同时也带来了巨大挑战。这类数据通常具有“高维度、小样本”的特点,即基因数量(特征)成千上万,而患者样本数量相对有限。这种特性使得传统的机器学习模型容易陷入“维度灾难”,导致过拟合和性能下降。此外,模型预测结果往往像一个“黑箱”,难以理解其内在决策逻辑,这严重阻碍了人工智能在临床诊断中的可信度和广泛应用。
为了应对这些挑战,研究人员在《Franklin Open》上发表了一项创新性研究,旨在开发一个既准确又透明的癌症诊断框架。该研究巧妙地融合了先进的特征选择技术、集成学习策略和可解释人工智能(XAI)方法,为高维基因表达数据的分析提供了新的解决方案。
本研究采用了几个关键的技术方法:首先,利用相关性特征选择(CFS)作为初步过滤步骤,快速去除冗余和不相关的基因;其次,应用樽海鞘群优化(SSA)算法对CFS筛选后的特征子集进行进一步优化,以寻找最优基因组合;然后,构建了包含支持向量机(SVM)、极限学习机(ELM)、多层感知器(MLP)、逻辑回归(LR)、决策树(DT)和AdaBoost在内的多种基分类器;接着,采用Bagging和Boosting两种集成策略来提升模型的鲁棒性和泛化能力;最后,引入了SHAP(SHapley Additive exPlanations)等XAI技术对模型决策进行解释,识别关键基因。实验所使用的六种癌症微阵列数据集(肺、结肠、前列腺、乳腺、白血病和脑癌)均来自公开数据库。
1. 引言与研究动机
研究指出,尽管机器学习在癌症诊断中展现出巨大潜力,但直接将优化算法应用于整个基因空间会导致计算成本高和冗余特征选择。此外,现有研究往往将特征过滤、优化和可解释性作为独立部分,缺乏一个统一的框架。本研究的主要动机正是为了解决这一研究空白,通过结合CFS和SSA的两阶段特征选择策略,在保证计算效率的同时提高分类精度,并利用XAI技术增强模型的临床可信度。
2. 方法论与架构设计
提出的框架首先对原始癌症数据进行预处理和归一化。随后,CFS被用于计算特征与类别之间的相关性,初步降低特征维度。SSA则在此基础上进行全局搜索,其适应度函数直接与分类准确率挂钩,确保选出的基因子集既紧凑又具有高判别力。优化后的特征被用于训练多个基分类器,并通过Bagging(并行训练多个模型并投票)和Boosting(序列训练,纠正前序错误)策略进行集成。最终,SHAP被用于生成全局和局部解释,量化每个基因对特定预测结果的贡献度。
3. 结果分析与讨论
3.1. 特征选择与优化效果
结果显示,CFS与SSA的结合显著降低了特征维度,例如,肺癌数据的特征从2178个经CFS降至1089个,再经SSA优化至290个,降维比例达73.37%。与其他元启发式算法(如遗传算法GA、粒子群优化PSO)相比,SSA在分类准确率、所选特征数和运行时间上均表现最优,收敛速度更快且更稳定。
3.2. 分类器与集成模型性能
在六种癌症数据集上的测试表明,CFS+SSA+ELM、CFS+SSA+MLP等混合模型普遍取得了较高的准确率(90%-97%以上)。进一步的集成分析揭示,基于Boosting的集成方法在所有数据集上均一致性地优于Bagging,其在肺癌、结肠癌、乳腺癌等数据集上的准确率分别达到98.4%、98.9%和99.3%,且统计检验(p值均小于0.05)证实了这种性能提升的显著性。ROC曲线分析显示,Boosting的AUC(曲线下面积)值也略高于Bagging,证明了其更好的整体分类性能。
3.3. 可解释性分析
SHAP分析是本研究的一大亮点。通过计算平均绝对SHAP值,研究识别出每个癌症数据集中对模型预测最重要的前几个基因。例如,在乳腺癌数据中,BRCA1和TP53等已知的肿瘤抑制基因被赋予最高的SHAP值;在肺癌中,EGFR等关键癌基因被突出显示。这不仅验证了模型决策的生物医学合理性,也为其在临床实践中建立信任奠定了基础。局部解释示例进一步展示了SHAP如何追溯单个患者的预测结果到具体的基因贡献上。
4. 计算效率与比较分析
时间复杂度分析表明,SSA优化后,模型的训练时间和内存占用显著降低,尤其是在白血病等高维数据集上,计算负担从“非常高”降至“中等”,证明了该框架的良好可扩展性。尽管Boosting的训练时间略长于Bagging,但其带来的性能提升被认为在癌症诊断这类高风险应用中是可接受的权衡。
5. 与现有研究的比较
与2019年至2025年间发表的多种癌症检测研究相比,本研究的独特之处在于将CFS过滤、SSA优化、多样本集成学习(Bagging & Boosting)和深入的XAI解释(SHAP)整合到一个连贯的框架中。相较于仅关注准确率的深度学习方法或缺乏解释性的传统模型,该框架在保持高精度(97-99%)的同时,提供了基因级别的生物学洞察力。
本研究成功开发并验证了一个用于癌症基因表达分类的混合机器学习框架。该框架通过CFS和SSA的两阶段特征选择有效应对了高维度挑战,通过集成学习(尤其是Boosting)实现了卓越且稳健的分类性能,并通过SHAP驱动的XAI分析赋予了模型决策以透明度和临床可解释性。研究结果表明,该框架不仅能够以高准确度区分癌症与非癌症样本,而且其识别出的关键基因与已知的癌症生物标志物高度吻合,极大地增强了其在辅助临床决策中的实用价值和可信度。未来工作可考虑将该方法扩展到更多癌症类型和更大的多组学数据集上,并探索与深度学习架构的进一步结合。