基于FSAE特征工程与H2O AutoML的可解释人工智能宫颈癌预测模型研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Explainable AI based cervical cancer prediction using FSAE feature engineering and H2O AutoML

【字体：大中小】 时间：2025年11月19日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对宫颈癌早期预测中模型可解释性差、依赖大量标注数据等挑战，提出了一种融合堆叠自编码器(FSAE)特征工程与H2O AutoML的混合机器学习框架。通过局部可解释模型(LIME)和SHAP值分析，实现了95.24%的预测准确率和98.10%的AUC值，为临床决策提供了高精度且可解释的AI辅助工具。

宫颈癌作为全球女性第四大常见癌症，主要由高危型人类乳头瘤病毒(HPV)持续感染引起，每年导致约31.1万例死亡，在医疗资源有限的地区尤为突出。尽管巴氏涂片和HPV疫苗接种等早期筛查手段已取得进展，但传统诊断方法存在成本高、操作复杂等局限性。而当前基于机器学习(ML)和深度学习(DL)的预测模型虽展现出潜力，却普遍面临"黑箱"问题——模型决策过程不透明，严重制约了其在临床实践中的可信度和应用价值。

为突破这些瓶颈，来自韦洛尔理工学院的研究团队在《Scientific Reports》上发表了创新性研究，构建了一个集特征工程、自动化机器学习和可解释人工智能(XAI)于一体的综合预测框架。该研究通过堆叠自编码器(Stacked Autoencoder)进行特征提取，结合Fisher Score特征选择方法优化特征集，利用H2O AutoML自动化训练多个模型，并采用局部可解释模型-无关解释(LIME)和SHAP值(SHapley Additive exPlatations)技术提供预测依据的透明化解释。

研究人员采用Kaggle公开的宫颈癌数据集，包含36项人口统计学和临床特征。预处理阶段通过均值/众数填补缺失值，使用SMOTE过采样技术解决类别不平衡问题。特征工程阶段，构建编码器-解码器结构的自编码器将36个特征压缩至8维潜在空间，其重建损失函数为?_AE= (1/N)∑||x_i-x?_i||²。随后应用Fisher Score进行特征筛选，计算公式为F_j= [(μ_j⁺-μ_j)²+(μ_j^--μ_j)²]/(σ_j⁺²+σ_j^-2)。H2O AutoML在15分钟内训练了广义线性模型(GLM)、梯度提升机(GBM)、随机森林(RF)和深度学习等50个候选模型，通过5折交叉验证选择最优模型。

解释性AI(XAI)可解释性结果

LIME提供的局部解释显示，对于个体预测，性传播疾病(STD)史、吸烟时长等特征对风险预测贡献显著。SHAP摘要图则从全局角度确认STD、吸烟史和年龄是最具影响力的风险因素，与临床医学认知高度一致。

模型评估指标

ROC曲线分析显示模型AUC达到0.9354，PR曲线也表现出良好的精确度-召回率平衡。在最优F1阈值0.382下，混淆矩阵显示真阳性率98.49%，假阴性率仅1.51%，整体错误率4.17%。

消融研究与模型鲁棒性

通过系统消融实验验证了各组件贡献：完整模型(SMOTE+Fisher Score+Autoencoder)组合达到最高性能(AUC≈0.9901，F1分数0.9361)，显著优于部分组件配置。统计检验证实模型改进具有显著性(p=0.0003)。

研究结论表明，该框架成功将自动化机器学习与可解释AI技术结合，在保持高预测准确率(95.24%)的同时，提供了临床可理解的决策依据。这种端到端管道通过特征工程优化了模型输入，通过AutoML确保了算法性能，通过XAI技术建立了临床信任，为宫颈癌早期筛查提供了一种可扩展、可解释的解决方案，特别适合资源有限地区的医疗辅助决策。未来工作将聚焦于多中心外部验证、多类别分类细化以及联邦学习框架集成，以进一步提升模型的临床适用性和泛化能力。

联系信箱：

粤ICP备09063491号

热点排行