BloodImage:使用公共和临床数据集对视觉变换器在数字血膜中检测爆炸物的性能进行基准测试
《Journal of Pathology Informatics》:BloodImage: Benchmarking vision transformers for blast detection in digital blood films using public and clinical datasets
【字体:
大
中
小
】
时间:2025年11月03日
来源:Journal of Pathology Informatics CS6.3
编辑推荐:
白血病诊断中,基于Vision Transformer(ViT)的自动化血涂片分析系统通过数据增强(随机翻转、旋转、剪切等)和交叉验证策略优化模型性能。实验表明,使用Adam优化器的ViT2模型在公共(ALL-IDB)和临床(Barts)数据集上取得最高准确率(86%)和AUC值(0.95),验证了ViT在资源受限环境下的临床应用潜力。
近年来,随着人工智能和机器学习技术的快速发展,它们在医疗领域的应用日益广泛,尤其是在疾病的早期诊断和分类方面。白血病作为一种常见的血液系统恶性肿瘤,在英国每年约有10,302例新发病例,且其诊断通常依赖于专业血液病学家对血片的形态学分析。然而,这一过程不仅耗时,而且依赖于专家的经验,容易受到主观判断的影响。此外,当血片中仅存在少量原始细胞(blast cells)时,即使经过详细审查,也可能难以准确识别。因此,开发一种能够自动化血片分析的机器学习框架,对于提高诊断效率和准确性具有重要意义。
本研究的目标是评估一种基于视觉变换器(Vision Transformers, ViTs)的机器学习框架在血片中自动识别原始细胞方面的性能。ViTs作为一种新兴的深度学习模型,近年来在计算机视觉领域表现出强大的竞争力,特别是在图像分类和目标检测任务中。与传统的卷积神经网络(CNNs)相比,ViTs能够捕捉更复杂的图像特征,并且在处理不同分辨率和视角的图像时表现出更强的适应性。为了验证ViTs在临床环境中的可行性,研究团队使用了来自公开数据集(如ALL-IDB)和内部临床数据(来自Barts Health NHS Trust)的多种数据,以评估模型在不同数据集上的泛化能力。
在本研究中,研究团队采用了多种训练策略、优化算法和数据预处理技术,以系统地评估这些因素对ViTs模型性能的影响。训练策略包括传统的“hold-out”数据分割和“k-fold cross-validation”,前者将数据集分为训练集、验证集和测试集,后者则通过多次分割数据并训练模型,以提高模型的稳定性。优化算法方面,研究团队比较了Adam和随机梯度下降(SGD)两种方法。Adam是一种结合了动量和自适应参数缩放的优化算法,能够动态调整学习率,从而在训练初期提供更稳定的更新过程。而SGD则是一种较为简单的优化方法,通过损失函数不断调整模型权重,适用于大规模机器学习任务。通过实验,研究团队发现Adam在大多数情况下表现优于SGD,特别是在结合数据增强和k-fold交叉验证的情况下,模型的收敛速度更快,分类性能更高。
数据预处理技术也是本研究的一个重点。研究团队应用了多种数据增强方法,包括随机垂直翻转、随机水平翻转、随机旋转、随机剪切、随机水平平移、随机垂直平移、随机缩放和重采样等。这些增强方法不仅增加了训练数据的多样性,还提高了模型对不同视角和尺度的适应能力。其中,高斯金字塔下采样(Gaussian pyramid downsampling)是一种特殊的图像处理技术,能够模拟不同扫描设备产生的图像分辨率差异,并引入模糊或不同焦点的变化,以提升模型的泛化能力。研究结果显示,使用这些数据增强和预处理技术的模型,其性能显著优于未使用这些技术的模型,尤其是在小数据集或异质性较强的图像数据中。
研究团队还进行了内部和外部验证,以全面评估模型的泛化能力。内部验证使用了ALL-IDB1、ALL-IDB2和Barts三个数据集的组合,而外部验证则分别对每个数据集进行训练和验证,并测试模型在其他数据集上的表现。实验结果表明,当模型在ALL-IDB1和Barts数据集上训练时,其在ALL-IDB2和Barts数据集上的测试表现优于在单一数据集上训练的模型。这说明,使用多个数据集进行训练可以显著提高模型的泛化能力。此外,对于所有模型而言,结合数据增强和高斯金字塔下采样的方法,能够显著提高模型的准确率、敏感度和特异性,特别是在处理多细胞图像时,这些技术的作用尤为明显。
在模型性能评估方面,研究团队使用了多种指标,包括准确率(accuracy)、敏感度(sensitivity)、特异性(specificity)、受试者工作特征曲线下的面积(AUC-ROC)等。这些指标能够全面反映模型在不同数据集上的分类能力。结果显示,使用Adam优化器的模型在准确率和AUC-ROC方面均优于使用SGD的模型。例如,最佳模型ViT2-Adam在所有测试数据集上达到了高达86%的准确率和95%以上的AUC-ROC值,显示出其在临床诊断中的巨大潜力。相比之下,使用SGD优化器的模型在敏感度和特异性方面表现较差,尤其是在处理多细胞图像时,其分类能力显著下降。
研究还发现,数据增强和高斯金字塔下采样对模型性能的提升具有显著影响。特别是在训练数据量较少的情况下,这些技术能够有效增加数据的多样性,提高模型对未知数据的适应能力。然而,研究团队也指出,过多的数据增强可能会引入不必要的噪声,影响模型的稳定性。因此,需要在数据增强的复杂性和模型训练效率之间找到平衡。例如,ViT4模型虽然结合了所有增强技术和高斯金字塔下采样,但其表现并未显著优于ViT3模型,这表明在某些情况下,过度增强可能并不总是带来更好的性能。
此外,研究团队还探讨了不同数据集对模型性能的影响。结果显示,训练和验证数据集的规模和多样性对模型的最终表现具有重要影响。例如,当模型在ALL-IDB1和Barts数据集上训练时,其在ALL-IDB2数据集上的测试表现优于在单一数据集上训练的模型。这说明,使用多样化的数据集可以显著提高模型的泛化能力,使其在实际临床环境中更具适用性。然而,当数据集较为单一时,模型的泛化能力会受到一定限制,因此在实际应用中,需要确保数据集的多样性和代表性。
本研究的局限性在于所使用的数据集规模相对较小,尤其是在ALL-IDB1和ALL-IDB2数据集中,这可能影响模型的稳定性和泛化能力。尽管数据增强和交叉验证能够部分缓解这一问题,但研究团队认为,为了进一步验证模型的鲁棒性和泛化能力,仍需要更大的数据集。为此,研究团队正在积极收集来自Barts Health NHS Trust的更多数据,以用于后续的模型验证和临床测试。
总的来说,本研究展示了基于视觉变换器的机器学习框架在血片中自动识别原始细胞方面的潜力。通过系统的实验设计和评估,研究团队证明了数据增强、k-fold交叉验证和高斯金字塔下采样等技术对模型性能的积极影响。此外,研究还强调了优化算法选择的重要性,指出Adam优化器在大多数情况下优于SGD优化器,尤其是在处理异质性和多细胞图像时。这些发现为未来在临床环境中部署ViT模型提供了理论依据和技术支持,同时也为相关领域的进一步研究奠定了基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号