利用深度特征的决策级与特征级融合方法进行皮肤病诊断
《Frontiers in Digital Health》:Skin disease diagnosis using decision and feature level fusion of deep features
【字体:
大
中
小
】
时间:2025年10月18日
来源:Frontiers in Digital Health 3.8
皮肤疾病是全球范围内影响人类健康的常见疾病之一,它不仅可能对个体的生活质量造成严重影响,还可能引发更严重的后果,例如癌症,这在某些情况下可能危及生命。早期发现和治疗皮肤疾病对于改善患者预后具有至关重要的意义。然而,传统的皮肤疾病诊断方法存在一定的局限性,包括依赖于医生的主观判断、成本较高以及可能产生不一致的诊断结果。这些挑战促使研究人员探索自动化和机器学习技术,以提高皮肤疾病诊断的准确性和效率。
### 研究背景与意义
皮肤作为人体最大的器官,承担着保护身体免受外界环境影响的重要功能,如温度变化、紫外线辐射和有害化学物质等。此外,皮肤还能通过光合作用生成人体必需的维生素D。然而,由于环境污染、免疫力下降、病毒、酒精摄入、不健康的生活方式以及紫外线暴露等因素,皮肤疾病的发生率在全球范围内持续上升。这些疾病可能影响日常活动、破坏人际关系,甚至对内脏器官造成损害,严重时甚至可能导致死亡,如黑色素瘤(Melanoma)。研究表明,如果皮肤疾病能够被早期发现并及时治疗,患者的生存率可以高达97%。因此,开发一种高效、准确且易于应用的皮肤疾病诊断方法具有重要的现实意义。
传统的皮肤疾病诊断主要依赖于医生的视觉判断和经验,例如使用皮肤镜(Dermoscopy)技术来放大和照亮皮肤表面及其下层结构,从而帮助识别病变区域。对于进一步诊断,医生可能会进行皮肤活检以获取病理学信息。然而,这些方法依赖于医生的主观判断,且在不同经验水平的医生之间可能会出现诊断结果的不一致。此外,这些方法通常需要昂贵的设备和专业知识,使得在资源有限的环境中难以普及。
为了解决这些问题,近年来,基于计算机视觉和机器学习的自动化诊断系统逐渐成为研究热点。这些系统可以快速、经济地进行皮肤疾病识别,同时减少人为因素带来的不确定性。在这一领域,传统机器学习(如支持向量机、决策树和K近邻算法)和现代深度学习(如卷积神经网络和视觉Transformer)方法都得到了广泛应用。然而,传统机器学习方法在处理复杂、多样的皮肤病变时往往表现不足,而深度学习模型虽然在分类性能上有所突破,但单一模型可能在面对不同数据集时出现过拟合问题,影响其泛化能力。
### 方法概述
为了提升皮肤疾病诊断的准确性与泛化能力,本文提出了一种融合框架,结合了特征级融合(Feature-Level Fusion, FLF)和决策级融合(Decision-Level Fusion, DLF)两种策略。该框架使用了三种基础模型:两个基于卷积神经网络(Convolutional Neural Networks, CNN)的模型(包括改进后的DenseNet201和VGG19)以及一个基于注意力机制的视觉Transformer(Vision Transformer, ViT)模型。这些模型在特征提取和分类任务中各自发挥不同的作用,从而形成互补。
在特征级融合中,模型从不同基础网络中提取的特征被进行点对点的相加操作,然后通过共享的分类器进行最终的预测。这一过程有助于模型学习更丰富的特征表示,从而提升分类性能。而在决策级融合中,每个基础模型的输出结果被收集,并通过多数投票(Majority Voting)的方式进行决策融合,以减少单一模型的偏差。通过将两种融合策略结合,系统可以在特征级学习更精细的病变信息,同时利用决策级的鲁棒性,提升整体诊断效果。
为了进一步提升模型的泛化能力,本文还引入了基于生成对抗网络(Generative Adversarial Network, GAN)的数据增强方法。通过生成更多样化的训练数据,可以有效缓解数据集不平衡问题,提高模型在不同数据集上的适应性。此外,系统还利用了在线数据增强策略,如旋转、缩放和裁剪等,以增加训练数据的多样性。
### 实验与结果分析
本文在四个公开的皮肤疾病数据集上进行了实验,包括PH2、HAM10000、ISIC 2018和ISIC 2019。实验结果表明,所提出的融合框架在这些数据集上的表现优于许多现有方法。例如,在PH2数据集上,FLF和DLF分别达到了99.3%和99.2%的准确率;在HAM10000数据集上,FLF和DLF分别达到了92.7%和96.1%的准确率;在ISIC 2018数据集上,FLF和DLF分别达到了86.7%和89.0%的准确率;而在ISIC 2019数据集上,FLF和DLF分别达到了94.5%和95.0%的准确率。
这些结果表明,尽管两种融合策略都对皮肤疾病分类有帮助,但决策级融合(DLF)在大多数基准数据集上表现略优于特征级融合(FLF)。这可能是因为决策级融合能够更好地整合不同模型的预测结果,从而减少个体模型的偏差。同时,FLF和DLF的结合也为不同数据集提供了更灵活的诊断策略。例如,在某些数据集上,FLF可能表现更优,而在另一些数据集上,DLF则更有效。
此外,为了评估模型的泛化能力,本文还进行了跨数据集的测试,即在PH2数据集上训练模型,并在Derm7pt测试数据集上进行评估。结果显示,所提出的融合框架在跨数据集测试中表现良好,其中FLF和DLF的准确率分别为82.1%和81.3%,F1分数分别为80.8%和79.4%。这表明,所提出的模型在不同数据集上的适应性较强,能够有效应对数据分布的差异。
为了进一步验证模型的鲁棒性,本文还进行了基于Bootstrap方法的统计分析,计算了关键性能指标的95%置信区间。结果表明,所提出的框架在各项指标上都具有较高的稳定性,且置信区间较窄,显示出较强的泛化能力。
### 与其他方法的对比分析
在比较不同模型性能时,本文对比了多种现有方法,包括基于CNN的模型(如ResNet50、EfficientNet等)、基于ViT的模型以及混合方法。结果表明,基于ViT的模型在小规模数据集(如PH2)上表现优于基于CNN的模型,而在大规模数据集(如ISIC 2019)上,基于CNN的DenseNet201模型则表现更佳。这说明,不同的模型在不同的数据集上具有不同的优势,而融合策略能够有效地整合这些优势,从而提升整体诊断效果。
此外,本文还比较了不同的决策融合方法,包括平均投票(Averaging Voting)、加权平均投票(Weighted Averaging Voting)和多数投票(Majority Voting)。实验结果表明,多数投票方法在准确率方面表现更优,尤其是在处理数据不平衡问题时,能够减少个别模型的误判对最终结果的影响。相比之下,平均投票和加权平均投票在性能上接近,但不如多数投票方法稳定。
### 临床意义与模型解释性
为了评估模型的临床适用性和可解释性,本文还进行了Grad-CAM可视化分析,以展示模型在进行分类时关注的图像区域。结果表明,所提出的模型主要关注皮肤病变区域,而非无关背景,这符合皮肤疾病诊断的实际需求。这种可解释性对于临床应用至关重要,因为它能够帮助医生理解模型的决策依据,提高对自动化诊断系统的信任度。
### 未来工作与挑战
尽管所提出的融合框架在多个数据集上表现出色,但其仍然存在一些局限性。首先,该框架需要同时训练和推理两个CNN模型和一个基于注意力的ViT模型,这会导致训练时间较长,并对计算资源提出更高的要求。这在资源有限的临床环境中可能成为障碍,尤其是在需要实时诊断的场景下。
其次,本文提出的模型在数据增强方面依赖于GAN生成的图像和ISIC数据集中的样本。虽然这些方法能够有效提升模型的泛化能力,但数据增强过程可能带来一定的计算开销,尤其是在大规模数据集上。因此,未来的工作可以探索更轻量级的模型架构,以降低计算成本并提高效率。
此外,本文仅使用了标准的多头自注意力机制(Multi-Head Self-Attention, MHSA)进行特征融合,未尝试其他类型的注意力机制。因此,未来可以进一步研究不同的注意力机制,以探索其在皮肤疾病分类中的潜在优势。
最后,本文的研究主要集中在分类性能的提升,而对诊断过程中其他因素(如病变区域的分割、病变类型的识别等)涉及较少。因此,未来的研究可以结合图像分割技术,以更精确地识别病变区域,从而进一步提升诊断的准确性。
综上所述,本文提出的融合框架通过结合特征级和决策级的融合策略,有效提升了皮肤疾病分类的准确性和鲁棒性。同时,引入的数据增强方法和模型可解释性分析也为实际应用提供了重要的支持。然而,为了进一步推广该方法,还需要在模型轻量化、计算效率以及数据增强策略的优化方面进行深入研究。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号