
-
生物通官微
陪你抓住生命科技
跳动的脉搏
嵌套集成深度学习模型NEDL-GCP在妇科癌症风险预测中的突破性应用
【字体: 大 中 小 】 时间:2025年07月25日 来源:Array 2.7
编辑推荐:
研究人员针对妇科癌症早期诊断中存在的特征冗余、泛化性不足等问题,开发了基于CNN、RNN和SVM的嵌套集成深度学习模型NEDL-GCP。通过在Herlev和SIPaKMeD宫颈涂片数据集上验证,模型准确率分别达99.1%和98.5%,显著优于现有方法。该研究为临床自动化诊断提供了高精度工具,对优化诊疗流程具有重要意义。
妇科癌症尤其是宫颈癌的早期诊断一直是全球公共卫生的重大挑战。尽管传统筛查方法如Pap涂片检测和HPV DNA检测仍是金标准,但其存在观察者间变异大、假阴性率高等局限。更棘手的是,约半数妇科癌症属于罕见类型,临床数据匮乏导致治疗标准化困难。与此同时,社会对妇科健康话题的讳莫如深,使得许多女性延误筛查时机,最终导致本可预防的死亡。这些现实问题催生了对自动化、高精度诊断工具的迫切需求。
在此背景下,国内研究机构的研究人员开发了名为NEDL-GCP的创新性嵌套集成深度学习框架。这项发表在《Array》的研究通过巧妙融合多种机器学习范式,在宫颈癌风险预测领域实现了突破性进展。研究团队创造性地构建了两层架构:基础层整合了擅长空间特征提取的卷积神经网络(CNN)、捕捉时序特征的循环神经网络(RNN)以及具有强分类能力的支持向量机(SVM);元分类层则采用J48决策树和随机梯度下降(SGD)进行预测优化。这种层级式设计使模型能同时利用不同算法的优势,显著提升了分类性能。
研究采用了多项关键技术方法:使用Herlev数据集(917张宫颈细胞图像)和SIPaKMeD数据集(4049张细胞图像)进行模型训练与验证;通过数据增强技术(包括水平翻转、-60°至60°旋转和1.0-1.1倍缩放)扩充样本;采用5折交叉验证和80:20划分法评估模型稳定性;以准确率、精确率、召回率和F1分数作为主要评价指标。
研究结果部分展示了令人振奋的发现:
在Herlev数据集上,NEDL-GCP的嵌套集成层实现了0.989的精确率和0.985的准确率,较基础层性能提升显著。5折交叉验证显示模型具有极好的稳定性,平均准确率达0.985。与VGG-16、ResNet-50等主流模型相比,NEDL-GCP在所有指标上均展现出统计学显著优势(p<0.05)。
在SIPaKMeD数据集测试中,模型表现更为出色,准确率高达0.991,F1分数达0.992。特别值得注意的是,该模型对五类细胞(正常表层-中间细胞、正常基底旁细胞、异常挖空细胞、异常角化不良细胞和良性化生细胞)均能实现精准区分,证明其强大的特征辨别能力。
统计显著性分析显示,NEDL-GCP在两大数据集上的95%置信区间分别为(0.981, 1.001)和(0.975, 0.995),明显优于对比模型。即便与同样采用集成策略的ML-EnsCC和BRFEC相比,NEDL-GCP仍保持显著优势(p=0.0042和p=0.0028)。
研究讨论部分指出,这种嵌套集成架构的创新性在于突破了传统集成方法简单投票或堆叠的局限。通过引入层级式精炼机制,模型能够更充分地挖掘医学图像中蕴含的多维度信息。不过研究人员也坦承存在一定局限性,包括数据集可能存在的选择偏差,以及模型在更广泛妇科癌症类型中的适用性有待验证。
这项研究的临床意义不容小觑。高达99%的预测准确率意味着NEDL-GCP有望成为宫颈癌筛查的有力辅助工具,帮助医疗资源有限地区实现高效初筛。模型展现的强鲁棒性也为其在移动医疗设备上的部署提供了可能。未来研究可进一步探索模型在多癌种联合预测、多模态数据融合等方面的扩展应用,为精准医疗开辟新途径。
生物通微信公众号
知名企业招聘