《BioMed Research International》:XMP-Net: An XAI-Based Modified Xception Model for Recognizing Monkeypox and Other Skin Diseases
编辑推荐:
本文推荐了一种基于改进Xception架构的深度学习模型XMP-Net,用于识别猴痘(monkeypox)、水痘(chickenpox)、麻疹(measles)和正常皮肤图像。该研究通过引入梯度加权类激活映射(Grad-CAM)和局部可解释模型无关解释(LIME)等XAI技术,显著提升了模型决策过程的透明度,验证准确率达93.67%。研究强调了在资源有限地区开发可靠、可解释诊断工具的重要性,为传统诊断方法提供了有效补充。
摘要
本研究引入了“XMP-Net”,一种基于改进Xception架构的深度学习模型,专门用于皮肤病的分类,尤其侧重于猴痘的识别。该模型能够识别四类皮肤图像:正常皮肤、水痘、麻疹和猴痘。为了增强模型的可解释性并建立对其预测结果的信任,研究采用了梯度加权类激活映射(Grad-CAM)和局部可解释模型无关解释(LIME)来阐释模型的决策方式。模型展现了出色的分类性能,对正常皮肤的识别准确率达到98.33%,猴痘为98.25%,麻疹为84.21%,水痘为77.27%。同时,研究还分析了每个类别的精确率(Precision)、召回率(Recall)和F1-分数(F1-score),其中猴痘的精确率为91.80%,召回率为98.25%,F1-分数为94.92%。Grad-CAM和LIME生成的可视化解释突显了输入图像中影响模型预测概率的关键区域,为临床医生提供了宝贵的诊断过程洞察。这项研究凸显了可解释人工智能(XAI)在增强传统诊断方法方面的潜力,特别是对于像猴痘这样的新发传染性疾病,并为在资源受限环境中开发可靠、可解释且易于使用的诊断工具奠定了基础。
1. 引言
猴痘是一种病毒性人畜共患病,已重新成为全球健康关切问题。截至2023年,已有超过100个国家报告了疫情,确诊病例超过87,000例。其症状包括皮疹和皮肤损伤,通常与水痘和麻疹等其他皮肤病相似,导致准确和及时诊断面临挑战。传统的检测技术,如聚合酶链式反应(PCR),虽然有效但成本高、耗时长,并且需要特定的实验室设施,这在资源有限的地区往往难以实现。在此类环境下,误诊可能导致治疗延迟,加剧疾病传播并增加死亡率。
虽然机器学习和深度学习模型在自动化疾病检测方面显示出潜力,但现有的猴痘分类研究通常存在数据集有限、缺乏可解释性以及仅关注二元分类等问题,使其难以适用于真实的临床场景。因此,迫切需要一种可靠、可解释且成本效益高的系统,能够对猴痘进行分类并将其与相似病症区分开来,以辅助早期检测和控制疾病传播。
先前关于猴痘分类的研究揭示了几个显著差距。主要局限包括依赖小型、不平衡的数据集,这阻碍了模型在不同人群和条件下的泛化能力和鲁棒性。此外,许多研究缺乏可解释性,模型作为黑箱系统运行,降低了其可信度和临床适用性。常见的二元分类方法忽视了区分相似疾病(如水痘或麻疹)的多类分类需求。模型往往表现出较差的跨域泛化能力,无法在不同区域或环境的数据集上良好运行。不充分的数据预处理和增强方法进一步限制了性能,而对准确性的过度关注忽视了其他关键指标,这些指标对于不平衡数据集至关重要。很少有研究在真实临床环境中验证其模型,这引发了对其实际应用性的担忧。计算效率是另一个挑战,许多高性能模型资源密集,不适合在猴痘流行的低资源环境中部署。此外,现有研究很少关注早期疾病检测,而是针对完全发展的病变,并且常常忽略整合时间或临床数据以提升诊断准确性。解决这些差距对于开发可靠、可解释且可扩展的猴痘检测方案至关重要。
随着全球猴痘病例持续增加,对快速、可扩展和智能诊断系统的需求日益迫切。近年来,深度学习(DL)与医学图像分析的融合已经彻底改变了疾病分类任务,不仅提供了高性能,也带来了实时应用的潜力。尽管取得了这些进展,实际部署仍面临一些障碍,如模型可解释性、数据多样性有限以及数据集间缺乏标准化。此外,猴痘与其他皮肤病在视觉上的相似性使分类任务复杂化,特别是当使用非针对细微皮肤病学变异设计的通用卷积神经网络(CNN)时。因此,一个由可解释性机制支持的、经过修改的、特定领域的架构至关重要。一个精心设计的多类框架,能够区分重叠的皮肤状况,同时保持计算效率,可能在减少误诊、优化资源分配和改善地方性及易爆发地区患者预后方面发挥关键作用。
本研究专注于开发一个强大的系统,通过对皮肤图像进行四类分类(正常、水痘、麻疹、猴痘)来区分猴痘和其他皮肤状况。为实现此目标,研究实现了一个改进版的Xception模型,称为XMP-Net,作为利用迁移学习(Transfer Learning)的多类图像分类器。迁移学习使模型能够借助预训练权重进行高效学习,即使在数据有限的情况下也是如此。输入图像经过一系列预处理步骤以确保质量一致并优化训练和分类数据。这些预处理步骤包括调整大小和数据增强(Data Augmentation),以提升模型对输入数据变化的鲁棒性。预处理后,图像被送入XMP-Net进行分类。为确保模型预测的可解释性和可靠性,工作流程中整合了可解释人工智能(XAI)技术。采用Grad-CAM和LIME来研究改进的Xception-based CNN的决策方式。Grad-CAM创建热力图,直观地高亮输入图像中对模型预测最重要的区域;而LIME则通过扰动(轻微改变)图像片段来分析它们对预测的影响。这些XAI技术对于理解影响模型分类决策的特定图像区域起着重要作用,确保了系统的透明度和可信度。
2. 文献综述
许多研究已经提出了基于深度学习计算机视觉和其他方法的猴痘疾病自动识别方案。先前的研究存在性能不足和疾病识别范围有限的问题。例如,Sitaula和Shahi利用Xception和DenseNet-169的集成模型,达到了87.13%的准确率。Ahsan等人使用VGG-16模型,在161张图像的数据集上获得了78%的准确率,并使用了LIME进行解释。Sathwik等人使用VGG-19在228张图像的数据集上达到92%的准确率,但未提供模型解释。Sahin等人开发了基于MobileNetV2的安卓应用,准确率为91.11%。Ali等人使用ResNet-50,准确率为82.96%。Bala等人提出了改进的DenseNet-201模型(MonkeyNet),在猴痘皮肤图像数据集(MSID)上达到了93.19%的准确率,并使用了Grad-CAM进行可视化。Khafaga等人采用基于Al-Biruni地球半径(BER)优化的深度卷积神经网络(DCNN),准确率高达98.83%,但未提供模型解释。Prabhu等人使用Swin Transformer模型,在两个数据集上分别达到95.9%和89.8%的准确率。Almufareh等人使用InceptionV3模型,准确率为94%。Uysal采用CNN与长短期记忆网络(LSTM)结合的方法,在770张图像的数据集上达到87%的准确率。
这些研究普遍面临数据集小、模型可解释性不足、多为二元分类以及计算资源需求大等挑战。本研究的首要目标是利用XAI技术,在从皮肤图像中准确识别猴痘方面超越先前的工作。
3. 提出的方法
本研究的方法流程包括开发XMP-Net,一个改进的Xception模型,用于皮肤图像的多类分类。过程始于数据收集和预处理,图像被调整大小、标准化和增强,以确保一致性和鲁棒性。预处理后的图像被输入XMP-Net,该模型利用迁移学习,借助预训练权重进行高效训练。模型架构经过微调以优化其在该特定分类任务上的性能。训练期间,对超参数进行了优化。训练完成后,使用多种分类指标评估模型性能。为确保可解释性,将XAI技术,特别是Grad-CAM和LIME,应用于模型的预测结果。这些技术通过高亮输入图像中对分类决策最具影响力的区域,提供可视化和局部化的解释,确保透明度和可靠性。
3.1. 数据集描述
本研究使用的数据集名为“MSID”(猴痘皮肤图像数据集),采集自Mendeley Data。数据集分为三个部分:训练集、验证集和测试集。训练集包含460张图像(猴痘175张,水痘167张,麻疹64张,正常54张),用于训练XMP-Net模型。验证集包含152张图像(猴痘58张,水痘55张,麻疹21张,正常18张),用于在训练期间微调模型和评估其性能。测试集包含158张图像(猴痘60张,水痘57张,麻疹22张,正常19张),专门用于最终评估模型的泛化能力。这种结构化的分布确保了各个类别在所有分区中的平衡代表性。
3.2. 数据预处理
采用了多种预处理技术,包括数据增强和调整大小。所有图像被统一调整为224×224像素。为解决数据集中存在的类别不平衡问题(特别是麻疹和正常类别样本较少),研究在训练中采取了多种策略:应用数据增强技术(如旋转、剪切、缩放、平移、水平翻转等)来人工扩展代表性不足的类别并增加其变异性;在分类交叉熵损失函数中引入类别权重,使少数类别的错误对整体训练过程贡献更大;在XMP-Net的密集层中使用Dropout层,以提高泛化能力并减少对多数类别的过拟合风险。
3.3. 基于Xception的CNN架构
选择Xception模型作为XMP-Net的预训练基础,是因为它在准确性和效率之间取得了良好平衡。Xception采用了深度可分离卷积(Depthwise Separable Convolution),该结构将标准卷积分解为深度卷积和逐点卷积,显著减少了参数数量和计算成本。与VGG-16、InceptionV3、ResNet-50等模型相比,Xception在保持高精度的同时具有更高的效率。XMP-Net旨在利用Xception强大的特征提取能力。
3.4. 应用迁移学习
迁移学习是指利用在大型数据集(如ImageNet)上预训练的模型来解决特定问题,从而提高学习效率。XMP-Net采用了基于Xception的迁移学习。预训练Xception模型的权重被冻结以防止在训练初期被修改。在Xception模型之后,移除了其原始的分类器,并添加了新的层构成XMP-Net的分类器。这些新层包括批归一化(Batch Normalization)层、展平(Flatten)层、一个包含256个神经元的全连接层(Fully Connected Layer, FCL)、一个丢弃率(Dropout Rate)为0.5的Dropout层,以及一个包含4个神经元(对应四个类别)的输出层。模型使用分类交叉熵作为损失函数,并采用Adam优化器。为防止过拟合,除了Dropout外,还在全连接层中使用了L2核正则化(Kernel Regularization),并进行了大规模数据增强。为验证模型鲁棒性,还进行了五折交叉验证(5-fold Cross-Validation)实验。
3.5. 性能评估指标
本研究使用多种指标进行全面评估。准确率(Accuracy)用于衡量预测的整体正确性。精确率(Precision)反映模型预测特定类别的可靠性。召回率(Recall)表明模型识别出该类所有相关实例的能力。F1-分数(F1-score)是精确率和召回率的调和平均数,提供了单一的性能衡量标准。此外,混淆矩阵(Confusion Matrix)提供了模型在所有类别上预测情况的详细可视化,突出显示了特定的误分类区域。
3.6. 使用Grad-CAM和LIME进行决策过程可视化
卷积神经网络(CNN)的决策过程常常像黑箱一样难以理解。为解决这个问题,采用了Grad-CAM和LIME等可视化技术来提供对模型推理的洞察。
Grad-CAM生成热力图,高亮显示输入图像中对CNN预测最重要的区域。它通过利用流入最终卷积层的梯度来识别影响分类决策的空间重要区域。例如,在皮肤病分类任务中,Grad-CAM可以可视化哪些图像部分(如病变或皮肤模式)对预测特定类别有贡献。这些热图帮助用户(包括临床医生)解释模型的预测,并验证其关注点是否与医学相关特征一致。
LIME则采用不同的方法,通过扰动输入图像的片段并观察对CNN输出的影响,来识别图像中哪些特定区域对分类至关重要。LIME的解释是模型无关的,这意味着它不依赖于CNN的内部结构,使其具有通用性且易于与各种模型一起使用。在皮肤病检测中,LIME可以通过高亮单个特征(如斑点或纹理)来提供局部解释,这些特征对于识别像猴痘这样的病症很重要。
结合使用Grad-CAM和LIME可以全面理解CNN的决策过程,Grad-CAM提供高层次的概述,而LIME提供更细粒度的洞察。这些可视化工具不仅提高了模型的透明度,也培养了用户之间的信任,使得基于人工智能的解决方案在医疗保健等敏感应用中更易被接受。
4. 结果与讨论
使用皮肤科图像训练XMP-Net多类CNN特征提取器。模型使用Adam优化器进行构建,在训练数据上使用了40个训练周期(Epoch)和批次大小(Batch Size)为32。模型表现出的准确率在32个周期后达到饱和。通过早停(Early Stopping)和模型检查点(Model Checkpoint)确定了最佳周期数。多类分类器的训练时长为25.33分钟,测试时长为13秒。
4.1. 实验设置
研究在Google Colab免费基于云的笔记本环境中进行,使用Python语言。模型使用TensorFlow和Keras(版本2.15.0)开发和训练。Google Colab提供了 substantial 的资源,包括12.67 GB RAM和78.19 GB磁盘空间。为无缝进行模型训练和评估,使用Google Drive将数据直接导入Google Colab。
4.2. 结果分析
该多类分类器实现了93.67%的验证准确率和0.1953的验证损失。相比之下,训练准确率为99.89%,训练损失为0.1998。训练准确率(99.89%)和验证准确率(93.67%)之间的观察到的差异表明存在潜在的过拟合倾向。然而,应用Dropout、L2正则化和广泛的数据增强有助于通过提高模型对未见数据的泛化能力来缓解此问题。五折交叉验证的结果进一步证实了XMP-Net的稳定性,各折的平均准确率、精确率、召回率和F1-分数与最初报告的验证结果一致。这些发现表明,尽管过拟合仍然是在相对较小的数据集上训练的深度学习模型的一个挑战,但所提出的正则化和验证策略在确保分类器的可靠性方面是有效的。
混淆矩阵显示了模型在四个类别上的分类性能。对于水痘类别,22个案例中有17个被正确分类,4个被误分类为猴痘,1个被误分类为正常。麻疹类别中,19个案例中有16个被准确识别,2个被误分类为水痘,1个被误分类为猴痘。模型在识别猴痘方面表现异常出色,57个案例中正确分类了56个,仅有1个被误分类为水痘。类似地,对于正常类别,60个案例中有59个被准确分类,1个被误分类为麻疹。总体而言,模型在猴痘和正常类别上表现出高准确率,而水痘和麻疹则表现出稍高的误分类率,表明在区分这些病症方面还有改进空间。
性能指标显示模型在四个类别上实现了不同水平的准确率、精确率、召回率和F1-分数。水痘类别的准确率为77.27%,F1-分数为80.95%。麻疹类别的准确率为84.21%,F1-分数为88.89%。模型在识别猴痘和正常类别方面表现优异,猴痘准确率达到98.25%,F1-分数为94.92%;正常类别准确率达到98.33%,F1-分数为98.33%。影响XMP-Net性能的一个重要因素是MSID数据集中固有的类别不平衡和样本量小,特别是在麻疹和正常类别中。这些类别中有限的训练样本数量限制了模型捕捉多样化病变模式的能力,导致其召回率和F1-分数低于猴痘和水痘类别。尽管采用了数据增强和类别加权策略来缓解这种不平衡,但问题未能完全消除,并且可能仍然存在一定程度的对多数类别的偏差。这一观察结果强调了数据集多样性对于训练鲁棒的医学图像分析深度学习模型的关键作用。
Grad-CAM可视化有效高亮了皮肤图像中对模型疾病分类决策过程最具影响力的区域。热力图表明模型聚焦于皮肤病变的中心区域,颜色强度从黄色到红色,表明这些区域在分类任务中具有更高的相关性。原始图像显示多个皮肤病变,Grad-CAM叠加图精确定位了这些关键区域,证实模型准确识别了皮肤病症的显著特征。
LIME可视化通过高亮皮肤图像的特定区域来说明模型决策的可解释性,这些区域对分类结果贡献最大。“解释图像”和“标记图像”显示了以亮绿色和黄色轮廓标出的区域,指示了模型认为重要的片段。“顶部预测”部分通过聚焦于这些标记区域加强了这一点,随附的“热力图”提供了特征重要性的可视化表示,其强度变化对应于对预测的影响。这种分层可视化展示了LIME如何分解模型的决策,就图像的哪些部分对分类最重要提供了清晰且可解释的洞察,从而增强了对模型预测的理解和信任。在正确分类的案例(如猴痘和正常)中,LIME高亮的区域与实际的病变区域或无病变区域吻合良好,表明模型的决策基于临床有意义的视觉线索。相反,在误分类的样本中,LIME解释显示模型的注意力分散在病变和非区域区域,或聚焦于不相关的皮肤斑块,导致了特征混淆和错误。这些例子直接揭示了影响模型决策的区域,帮助解释模型为何正确以及为何有时失败。
与现有工作的性能比较表明,本研究提出的XMP-Net模型在770张图像的数据集上达到了93.67%的准确率,高于大多数引用方法。同时,模型整合了Grad-CAM和LIME两种可解释性技术,增强了对预测结果的解释能力和透明度。这种对性能和可解释性的双重关注,使该模型成为皮肤病诊断中更实用、更可靠的工具,特别是在理解模型决策至关重要的临床环境中。
5. 结论
本研究介绍了一种基于改进Xception的模型,用于猴痘及类似皮肤病的分类,并融入了Grad-CAM和LIME等XAI技术以提升可解释性。模型展现了强大的分类效能,尤其是在区分猴痘和正常皮肤状态方面,获得了较高的准确率、精确率、召回率和F1-分数。该方法的主要优势在于其提供可视化解释的能力,从而增强了临床应用中的信任和透明度。该工作存在显著缺点,包括对有限数据集的依赖,这可能影响模型在不同人群和成像条件下的泛化能力。此外,模型在识别水痘方面相对较低的效果表明其在处理相似皮肤病方面有提升空间。后续研究应专注于扩充数据集以涵盖更广泛、更多样化和具有代表性的图像,提升模型在难分类别上的效能,并探索轻量级架构以便在资源受限环境中部署。此外,将时序和临床数据与影像学整合可显著提高实际场景中的诊断准确性和相关性。未来的研究将纳入专家咨询,以加强可解释性图谱的可解释性和临床可靠性。在未来的实施中,该系统可集成到移动健康平台中,使一线医护人员能够使用智能手机摄像头进行初步筛查。此类部署可显著提高实验室检测不易获得的偏远或服务不足地区的早期检测率。此外,将该模型纳入临床决策支持系统可优化诊断工作流程并减轻临床医生的负担。同时,必须优先考虑伦理问题,如保护患者数据隐私、确保知情同意以及最小化算法偏见,以促进在不同人群中的公平使用。通过解决这些方面,XMP-Net可以发展成为临床和社区医疗环境中实用、安全且值得信赖的诊断支持系统。