基于FSAE特征工程与H2O AutoML的可解释人工智能宫颈癌预测模型研究
《Scientific Reports》:Explainable AI based cervical cancer prediction using FSAE feature engineering and H2O AutoML
【字体:
大
中
小
】
时间:2025年11月19日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对宫颈癌早期预测中模型可解释性差、依赖大量标注数据等挑战,提出了一种融合堆叠自编码器(FSAE)特征工程与H2O AutoML的混合机器学习框架。通过局部可解释模型(LIME)和SHAP值分析,实现了95.24%的预测准确率和98.10%的AUC值,为临床决策提供了高精度且可解释的AI辅助工具。
宫颈癌作为全球女性第四大常见癌症,主要由高危型人类乳头瘤病毒(HPV)持续感染引起,每年导致约31.1万例死亡,在医疗资源有限的地区尤为突出。尽管巴氏涂片和HPV疫苗接种等早期筛查手段已取得进展,但传统诊断方法存在成本高、操作复杂等局限性。而当前基于机器学习(ML)和深度学习(DL)的预测模型虽展现出潜力,却普遍面临"黑箱"问题——模型决策过程不透明,严重制约了其在临床实践中的可信度和应用价值。
为突破这些瓶颈,来自韦洛尔理工学院的研究团队在《Scientific Reports》上发表了创新性研究,构建了一个集特征工程、自动化机器学习和可解释人工智能(XAI)于一体的综合预测框架。该研究通过堆叠自编码器(Stacked Autoencoder)进行特征提取,结合Fisher Score特征选择方法优化特征集,利用H2O AutoML自动化训练多个模型,并采用局部可解释模型-无关解释(LIME)和SHAP值(SHapley Additive exPlatations)技术提供预测依据的透明化解释。
研究人员采用Kaggle公开的宫颈癌数据集,包含36项人口统计学和临床特征。预处理阶段通过均值/众数填补缺失值,使用SMOTE过采样技术解决类别不平衡问题。特征工程阶段,构建编码器-解码器结构的自编码器将36个特征压缩至8维潜在空间,其重建损失函数为?AE= (1/N)∑||xi-x?i||2。随后应用Fisher Score进行特征筛选,计算公式为Fj= [(μj+-μj)2+(μj--μj)2]/(σj+2+σj-2)。H2O AutoML在15分钟内训练了广义线性模型(GLM)、梯度提升机(GBM)、随机森林(RF)和深度学习等50个候选模型,通过5折交叉验证选择最优模型。
LIME提供的局部解释显示,对于个体预测,性传播疾病(STD)史、吸烟时长等特征对风险预测贡献显著。SHAP摘要图则从全局角度确认STD、吸烟史和年龄是最具影响力的风险因素,与临床医学认知高度一致。
ROC曲线分析显示模型AUC达到0.9354,PR曲线也表现出良好的精确度-召回率平衡。在最优F1阈值0.382下,混淆矩阵显示真阳性率98.49%,假阴性率仅1.51%,整体错误率4.17%。
通过系统消融实验验证了各组件贡献:完整模型(SMOTE+Fisher Score+Autoencoder)组合达到最高性能(AUC≈0.9901,F1分数0.9361),显著优于部分组件配置。统计检验证实模型改进具有显著性(p=0.0003)。
研究结论表明,该框架成功将自动化机器学习与可解释AI技术结合,在保持高预测准确率(95.24%)的同时,提供了临床可理解的决策依据。这种端到端管道通过特征工程优化了模型输入,通过AutoML确保了算法性能,通过XAI技术建立了临床信任,为宫颈癌早期筛查提供了一种可扩展、可解释的解决方案,特别适合资源有限地区的医疗辅助决策。未来工作将聚焦于多中心外部验证、多类别分类细化以及联邦学习框架集成,以进一步提升模型的临床适用性和泛化能力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号