基于集成卷积神经网络与机器学习的急性淋巴细胞白血病计算机视觉预测模型研究

《Scientific Reports》:Efficient convolutional neural networks for acute lymphoblastic leukaemia prediction in computer vision

【字体: 时间:2025年12月17日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对急性淋巴细胞白血病(ALL)人工诊断效率低、现有单一模型泛化性不足的问题,提出了一种融合预训练CNN(DenseNet-121、ResNet-34)特征提取与机器学习分类器(SVM、KNN、RF、AdaBoost、BPN)的集成学习框架。在C-NMC数据集(10,661张图像)上的实验表明,该框架达到92.5%的准确率和93.1%的F1分数,AUC达0.975,统计检验证实其显著优于单一模型(p<0.05)。该研究为ALL的自动化诊断提供了可靠的临床决策支持工具。

  
在医学领域,白血病始终是一个严峻的威胁。这种癌症主要影响血液和骨髓,导致异常白细胞(WBCs)的失控增殖。这些功能失常的“白血病细胞”会损害免疫系统,使患者更易受感染。其中,急性淋巴细胞白血病(ALL)是全球最常见的儿童癌症之一。据世界卫生组织(WHO)2024年数据,全球每年约有85,000新发病例和41,000死亡病例,15岁以下儿童发病率最高(约每10万人3.2例)。早期、准确的诊断至关重要,在高收入国家,及时治疗可使生存率超过90%。然而,传统的白血病诊断方法依赖人工镜检血涂片图像,过程耗时、繁琐且易出错。
尽管基于卷积神经网络(CNNs)的计算机视觉方法在医学影像分析中展现出强大潜力,但现有研究多依赖于单一模型,存在数据集类别不平衡、泛化能力有限以及缺乏统计验证等问题,限制了其临床可靠性。这引出了两个核心研究问题:集成预训练CNN与多种机器学习分类器的框架能否在ALL预测上超越单一模型?观察到的性能提升是否具有统计显著性,从而确保其临床应用的稳健性?
为了回答这些问题,由S.B.Mohan、S.Sathya、S.Rajalaksmi、G.Gurumoorthy和Rajkumar Sivanraju(通讯作者)组成的研究团队在《Scientific Reports》上发表了他们的研究成果。他们开发了一种高效的集成学习框架,旨在为ALL提供一种自动化、高精度的计算机辅助诊断工具。
研究人员为开展此项研究,主要应用了几项关键技术。他们使用了公开的C-NMC白血病数据集(来源:Kaggle平台),该数据集包含10,661张标记的血涂片图像(ALL阳性7,272张,健康3,389张)。研究采用预训练的深度卷积神经网络DenseNet-121和ResNet-34进行深度特征提取,将提取的特征向量进行融合,形成1536维的混合特征表示。随后,使用多种机器学习分类器(支持向量机SVM、K-最近邻KNN、随机森林RF、自适应提升AdaBoost、反向传播网络BPN)对这些融合特征进行分类。最终,通过集成学习策略(加权投票)结合各分类器的预测结果。模型性能通过5折分层交叉验证、受试者工作特征(ROC)曲线/曲线下面积(AUC)、精确率-召回率(PR)曲线以及统计显著性检验(t检验、Wilcoxon符号秩检验)进行全面评估。

分类性能

研究团队评估了五种机器学习分类器在融合特征上的表现。支持向量机(SVM)取得了最佳性能,准确率达到92.5%,精确率91.3%,召回率96.4%,F1分数93.1%。其他分类器如AdaBoost和BPN也表现出竞争力,准确率分别为86.9%和87.0%。KNN和随机森林(RF)的准确率分别为83.8%和82.1%。混淆矩阵分析显示,SVM的误分类率最低。集成模型的混淆矩阵进一步表明,通过整合所有分类器的输出,能够有效减少假阴性病例,这对于避免漏诊白血病至关重要。

ROC和AUC分析

ROC曲线和AUC值用于评估分类器在不同阈值下的判别能力。集成模型的AUC达到0.975(95%置信区间:0.965-0.984),显著高于所有单一分类器(SVM: 0.960, BPN: 0.926, AdaBoost: 0.933, KNN: 0.899, RF: 0.898)。基于bootstrap的配对比较显示,集成模型相较于SVM的AUC提升具有统计显著性(p=0.022)。精确率-召回率(PR)曲线分析在类别不平衡(ALL样本约占68%)的背景下尤为重要,集成模型取得了最高的平均精度(AP=0.994)。此外,通过概率校准(等渗回归),Brier分数从0.072降至0.056,表明模型预测概率的可靠性得到提升。

消融研究

为了评估不同特征提取器的贡献,研究进行了消融实验。仅使用DenseNet-121特征时,准确率为89.7%;仅使用ResNet-34特征时,准确率为90.2%。而将两者特征融合并结合集成学习后,准确率显著提升至92.5%,F1分数达到93.1%。这证实了DenseNet-121(侧重于密集特征复用)和ResNet-34(侧重于残差映射)所提取特征的互补性,融合它们能产生更丰富、更具判别力的特征表示,是性能提升的关键。

统计显著性检验

为确保集成框架的性能提升并非偶然,研究进行了统计假设检验。配对t检验和Wilcoxon符号秩检验结果均表明,集成模型在所有5折交叉验证分割中,其性能均显著优于每个基线分类器(p值均小于0.05)。即使与表现强劲的SVM相比,集成模型的优势也具有统计显著性(p≈0.02),这为所提框架的稳健性提供了严谨证据。

与先进方法的比较

研究将所提方法与近期同样使用公共白血病数据集的先进工作进行了比较。与基于Xception、VGG、可解释视觉Transformer(ViT)以及CNN-Transformer混合模型(如CoTCoNet)等方法相比,本研究的集成框架在AUC(0.975)上具有竞争力或更优。更重要的是,本研究包含了统计验证和消融研究,增强了研究结果在真实临床场景中的可信度。

研究结论与讨论

本研究成功引入了一个用于自动检测急性淋巴细胞白血病(ALL)的集成框架,该框架创新性地融合了预训练CNN(DenseNet-121, ResNet-34)的特征提取能力与多种机器学习分类器的优势。该框架在C-NMC数据集上取得了92.5%的准确率、93.1%的F1分数以及0.975的AUC值,显著优于单一的CNN基线模型(性能提升5-6%)。统计验证证实了这些提升的显著性。这些发现不仅体现了数值上的优越性,更凸显了其临床价值,特别是通过降低假阴性来助力早期诊断和提高生存结局。
该方法的优势在于其设计具有良好的可扩展性,并具备集成到医疗工作流中实现实时部署的潜力,有助于减少人工判读误差、加速诊断进程。然而,研究也存在一些局限性,例如模型仅在单一的C-NMC数据集上验证,需要未来在多机构数据集上进行更广泛的验证以确认其普适性;特征提取过程计算成本较高,在临床或医疗物联网(IoMT)场景中部署时可能需要轻量化版本;模型缺乏内置的可解释性,与近年兴起的可解释人工智能(XAI)方法相比,临床信任度建立方面存在挑战。
未来研究可朝多个方向推进:探索跨医院的联邦学习(Federated Learning)以实现隐私保护下的大规模验证;研究模型压缩和剪枝技术以降低计算负载,适应床边护理(Point-of-care)部署;集成概率校准和可解释性技术以增强临床信任度和采纳度;结合多模态数据(如基因组学+影像学)以期进一步提升诊断准确性。总之,这项工作为开发可靠、可推广的自动化白血病检测系统迈出了重要一步,展示了其在改善血液学工作流程方面的实际应用潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号