基于CNN-Transformer-GRU融合与生成对抗网络数据增强的鲁棒性皮肤癌检测新方法

【字体: 时间:2025年09月15日 来源:CMES - Computer Modeling in Engineering and Sciences

编辑推荐:

  为解决皮肤癌诊断中图像数据不平衡和模型泛化能力不足的问题,研究人员开展了一项结合卷积神经网络(CNN)、Transformer与门控循环单元(GRU)的混合架构研究,并采用StyleGAN3进行数据增强。该研究在HAM10000数据集上实现了90.61%的准确率和95.28%的召回率,AUC达到0.97,显著优于传统基线模型。这项突破性工作为皮肤癌早期诊断提供了更可靠的自动化工具,对改善患者预后具有重要临床意义。

  

皮肤癌尤其是黑色素瘤(Melanoma)已成为全球重大的公共卫生挑战,其早期检测对改善患者预后至关重要。尽管皮肤镜检查技术能够提供详细的皮肤病变图像,但非专业人员难以准确解读这些图像。虽然计算机视觉和深度学习技术已被开发用于辅助皮肤科医生进行自动皮肤病变分类,但现有模型仍面临重大挑战——其中最突出的是皮肤镜图像数据库中严重的类别不平衡问题。良性病变如黑色素细胞痣(Melanocytic nevi)和脂溢性角化病(Seborrheic keratoses)通常过度代表,而恶性病变特别是黑色素瘤则代表性不足。这种不平衡导致分类器往往对多数类产生偏见,可能造成大量假阴性结果,带来严重的临床后果。

为了解决这些关键问题,来自印度新德里Bharati Vidyapeeth工程学院计算机科学与工程系的Alex Varghese、Achin Jain、Mohammed Inamur Rahman等研究人员开展了一项创新性研究,提出了一种结合卷积神经网络(CNN)、Transformer和门控循环单元(GRU)的混合深度学习框架,用于鲁棒的皮肤癌分类。该研究成果发表在《CMES - Computer Modeling in Engineering and Sciences》上,为自动化皮肤癌诊断领域带来了重要突破。

研究人员采用了几项关键技术方法:首先利用HAM10000数据集中的皮肤镜图像,将七类诊断标签转换为恶性与良性的二元分类;针对类别不平衡问题,创新性地采用了基于StyleGAN3的合成数据增强技术,同时结合传统增强技术;设计了一种改进的深度卷积生成对抗网络(DCGAN)用于高分辨率图像合成;最后构建了CNN-Transformer-GRU并行混合架构,通过并行特征融合机制整合CNN提取的局部特征与Transformer的全局注意力。

研究结果方面,通过多个实验验证了所提出方法的优越性:

在数据预处理与增强方面,研究比较了标准DCGAN、改进DCGAN和StyleGAN3三种生成对抗网络变体的性能。定量评估显示,StyleGAN3在Fréchet Inception距离(FID)、Kernel Inception距离(KID)和Inception评分(IS)等指标上均表现最佳,生成的合成图像具有更高的视觉保真度和多样性。通过GAN增强,癌性皮肤图像数量从1954张增加到6954张,有效缓解了类别不平衡问题。

提出的混合模型架构表现突出,CNN分支负责提取局部空间特征,Transformer模块通过自注意力机制捕获全局依赖关系,GRU组件则学习特征表示中的序列依赖性。三个分支的输出被拼接并输入分类器,形成综合的特征表示。

模型性能评估结果显示,提出的CNN与并行自注意力Transformer和GRU组合模型在所有评估指标上均达到最佳性能:准确率90.61%、召回率90.88%、精确度91.12%、F1分数91.00%、AUC 0.9680。相比之下,传统模型如VGG16(准确率87.79%)、AlexNet(准确率89.28%)和标准CNN(准确率88.95%)均表现较差。

数据增强的贡献通过对比实验得到验证。未使用增强时,模型准确率仅为81.88%,AUC为0.8320;而采用GAN-based增强后,准确率提升至90.61%,AUC达到0.9680,证明了数据增强对模型性能的重要改善作用。

混淆矩阵分析表明,提出的模型在减少假阳性和假阴性方面表现最佳,适合高风险诊断应用。ROC曲线和精确度-召回率曲线进一步证实了该模型在不同阈值下均能保持良好的分类性能。

与现有工作的比较显示,该研究提出的混合架构在多项指标上优于当前最先进的模型,包括Swin Transformer和ConvNeXt等先进架构。特别是在F1分数和召回率方面表现突出,这对医学诊断至关重要。

模型可解释性分析通过Grad-CAM可视化技术实现,显示了模型关注的是语义上有意义的图像区域,增强了对其决策过程的信任和理解。

消融研究验证了各架构组件的贡献,分别测试了CNN、CNN_Transformer、CNN_GRU以及完整混合模型的性能。结果证实,完整混合模型在所有指标上均优于其他变体,证明了并行整合三种架构的有效性。

TOPSIS多标准决策分析进一步确认了提出模型的综合优越性,其接近系数为0.8148,排名第一,表明在准确性、召回率、精确度和AUC等方面提供了最佳的整体权衡。

研究结论与讨论部分强调,这项研究提出的混合深度学习框架通过有效整合局部、全局和序列特征提取机制,结合先进的生成对抗网络数据增强技术,显著提高了皮肤癌分类的准确性和鲁棒性。该方法不仅解决了医学成像中的类别不平衡和有限泛化等关键挑战,而且为皮肤癌早期诊断提供了更可靠的自动化工具。StyleGAN3基于合成数据增强的使用显著改善了模型泛化能力,而并行架构设计则确保了多样化且互补的特征学习。

尽管取得了令人鼓舞的结果,研究人员也指出了研究的局限性:依赖GAN生成的数据可能无法完全反映真实世界病变条件的多样性;模型仅在公共数据集上进行了评估,尚未在真实临床环境中进行验证;计算需求可能限制其在资源有限环境中的部署;模型可解释性仍有改进空间。

未来研究方向包括在更多样化的测试集上进行临床验证,整合其他患者数据源,开发可解释AI方法以提高透明度,以及优化模型以便在移动或嵌入式设备上部署。扩展该方法到其他皮肤病学条件也有望提升其在医疗保健实践中的实用价值。

这项研究通过创新性地融合多种深度学习架构和先进的数据增强技术,为自动化皮肤癌诊断设立了新的性能基准,对改善皮肤癌早期检测和患者治疗结果具有重要的临床意义和实用价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号