
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于混合深度学习与机器学习的多类别白血病细胞分类:CNN特征提取的创新应用
【字体: 大 中 小 】 时间:2025年07月04日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对白血病亚型分类中数据有限和形态相似性等挑战,开发了一种结合预训练CNN(VGG16/InceptionV3/ResNet50)与传统机器学习(RF/SVM/XGBoost)及多层感知器(MLP)的混合方法。通过整合ALL-IDB和Munich AML Morphology数据集,InceptionV3+SVM组合达到88%的最高准确率,为临床提供可扩展的自动化诊断工具,显著提升白血病亚型识别的速度和可靠性。
白血病作为最常见的血液癌症,其早期精准诊断对治疗方案制定至关重要。传统外周血涂片分析存在主观性强、观察者间差异大等局限,而现有深度学习技术多局限于二元分类。由于急性淋巴细胞白血病(ALL)和急性髓系白血病(AML)的细胞形态学特征高度相似,多类别分类成为亟待突破的技术瓶颈。
来自马来西亚理工大学等机构的研究团队在《Scientific Reports》发表创新研究,通过整合预训练卷积神经网络(CNN)与传统机器学习分类器,开发出适用于小数据场景的混合分类系统。研究采用ALL-IDB和Munich AML Morphology两个公开数据集,包含390张健康细胞、淋巴母细胞和髓母细胞的平衡图像。关键技术包括:1)U-Net架构的语义分割实现白细胞分离;2)VGG16/InceptionV3/ResNet50三种CNN模型进行特征提取;3)随机森林(RF)、支持向量机(SVM)、XGBoost和多层感知器(MLP)四类分类器的比较优化;4)旋转/翻转等数据增强策略。
【模型评估与性能指标】
InceptionV3+SVM组合表现最优,准确率达88%,F1-score为0.87。VGG16+XGBoost以87%准确率紧随其后,而ResNet50因过拟合问题表现最差(最高76%)。混淆矩阵显示髓母细胞的误分类率较高,反映其形态特征重叠的固有挑战。
【讨论】
该研究首次将特定CNN架构与传统机器学习分类器结合用于白血病多类别分类。InceptionV3的层次特征提取能力与SVM的高维空间处理特性形成优势互补,而XGBoost的正则化机制有效提升了VGG16的泛化性能。值得注意的是,ResNet50的深度架构在小数据集上表现欠佳,提示模型选择需考虑数据规模。
研究结论表明,混合方法能有效平衡特征提取与分类决策的精度需求,为临床提供88%分类准确率的自动化工具。这种技术路线特别适用于医疗影像数据有限的场景,其应用可显著减少人工诊断的时间成本和主观偏差。未来通过合成数据生成、轻量化模型优化等改进,有望进一步推动该技术向临床转化,最终实现白血病精准诊疗的革新。
生物通微信公众号
知名企业招聘