基于GAN与AlexNet的糖尿病视网膜病变严重程度分类模型:解决数据不平衡与图像尺寸优化的高效分类器

【字体: 时间:2025年09月20日 来源:Franklin Open CS1.4

编辑推荐:

  为解决糖尿病视网膜病变(DR)诊断中数据集类别不平衡和图像尺寸差异大的问题,研究人员开展了结合生成对抗网络(GAN)和AlexNet深度学习算法的研究。通过GAN生成合成眼底图像平衡数据集,并利用改进的AlexNet架构进行五级严重程度分类。实验结果表明,GAN-AlexNet模型在准确率(73%)、召回率(73%)、精确度(72.6%)和F1分数(73.2%)上均优于标准AlexNet,为DR的自动化诊断提供了高效且可靠的解决方案,具有重要的临床辅助诊断价值。

  

糖尿病视网膜病变(Diabetic Retinopathy, DR)作为糖尿病最常见的微血管并发症之一,已成为全球工作年龄人群失明的主要原因。随着糖尿病发病率的不断攀升,DR的早期诊断和精准分级显得尤为重要。传统的DR诊断依赖于眼科医生通过眼底镜检查获取眼底图像(fundus images)并进行人工评估,这一过程不仅耗时耗力,且对医生的专业经验要求极高。更为棘手的是,在真实的医疗场景中,不同严重程度的DR病例数据存在显著的不平衡问题——轻度病例数据丰富,而重症病例数据稀缺,这种数据不平衡会直接导致基于深度学习的分类模型出现偏差,在少数类上表现不佳。

近年来,人工智能技术在医学影像分析领域展现出巨大潜力,特别是深度学习中的卷积神经网络(CNN)已在图像分类任务中取得显著成果。然而,当面对不平衡数据集时,这些模型的性能往往会大打折扣。模型可能在多数类上学习得很好,但在少数类上表现欠佳,这对于需要高精度诊断的医疗应用来说是致命的缺陷。现有的数据平衡技术主要包括两类:通过调整类别权重来改变各类别对损失函数的贡献,或通过采样方法直接平衡数据分布。其中,过采样技术通过复制少数类样本来增加其数量,但简单的复制容易导致过拟合。

在这一背景下,本研究创新性地提出将生成对抗网络(Generative Adversarial Network, GAN)与改进的AlexNet架构相结合的方法,以解决DR分类中的数据不平衡问题。研究团队选择AlexNet作为分类器基础,是因为该架构在ImageNet竞赛中表现出色,且其结构相对简单易于修改。同时,GAN的生成器能够合成与真实眼底图像高度相似的合成图像,从而有效扩充少数类样本,实现数据平衡。

为了开展这项研究,研究人员从Kaggle平台获取了糖尿病视网膜病变眼底图像数据集,包含7,631张训练图像和1,000张测试图像,分为五个严重程度等级:无症状(No-DR)、轻度非增殖性DR(Mild-DR)、中度非增殖性DR(Moderate-DR)、重度非增殖性DR(Severe-DR)和增殖性DR(PDR)。数据预处理阶段,所有图像被调整为256×256像素大小,并进行归一化处理。研究采用Google Colaboratory平台,使用Python编程语言及TensorFlow、Keras、NumPy、Scikit-Learn和Matplotlib等库进行模型开发和评估。

关键技术方法包括:1)使用GAN架构生成少数类的合成眼底图像,生成器采用转置卷积层和上采样技术,判别器使用卷积层和全连接层;2)改进的AlexNet分类架构包含5个卷积层和3个全连接层,使用ReLU激活函数和Softmax输出层;3)采用Adam优化器(学习率0.0001)和分类交叉熵损失函数进行模型训练;4)使用5折交叉验证和混淆矩阵评估模型性能,计算准确率、精确度、召回率和F1分数等指标。

3.1. 数据收集

研究人员收集了包含五类DR严重程度的眼底图像数据集,其中训练数据7,631张,测试数据1,000张。数据显示存在明显的类别不平衡:No-DR和Mild-DR各有2,000张训练图像,而Severe-DR只有845张,PDR仅有786张。这种不平衡分布为构建无偏分类模型带来了挑战。

3.2. GAN架构开发

研究设计了包含8层结构的生成器和判别器。生成器全部由转置卷积层组成,使用LeakyReLU激活函数和批归一化;判别器包含6个卷积层和2个全连接层,同样使用LeakyReLU激活函数。GAN的输出为256×256×3的RGB眼底图像,通过生成PDR和Severe-DR类别的合成图像,有效解决了数据不平衡问题。

3.3. AlexNet改进架构开发

改进的AlexNet架构包含5个卷积层和3个全连接层,输入尺寸为256×256×3。前两个卷积层后接最大池化层,全连接层间加入Dropout(0.25)防止过拟合。使用ReLU激活函数(最后一层使用Softmax),Adam优化器进行训练。该架构总共包含超过26百万个可训练参数,具有较强的特征提取能力。

4. 结果与讨论

实验结果清晰展示了所提出方法的优势。在测试场景1(不使用GAN合成数据)中,模型整体准确率为62%,各类别的F1分数在40%-94%之间,存在明显的不平衡表现。而在测试场景2(使用GAN合成数据平衡后)中,模型整体准确率提升至73%,各类别的F1分数均达到69%左右,表现出更均衡的性能分布。

与现有主流CNN架构的对比实验进一步验证了GAN-AlexNet的优越性:ResNet18(60%)、DarkNet53(63%)、VGC16(64%)、MobileNetV2(53%)的准确率均低于GAN-AlexNet模型(73%)。这表明专门针对数据不平衡问题设计的算法能够显著提升模型在医学影像分类任务中的性能。

研究结果表明,通过GAN生成合成图像有效解决了DR数据集中的类别不平衡问题,使改进的AlexNet架构能够在所有严重程度类别上实现更一致和准确的分类性能。这种结合方法不仅提高了模型的整体准确率,更重要的是确保了模型在少数类别上的识别能力,这对于临床诊断中不漏诊重症病例至关重要。

5. 结论

本研究成功开发了一种结合GAN和改进AlexNet架构的糖尿病视网膜病变严重程度分类方法,有效解决了医学影像分析中常见的数据不平衡问题。通过生成高质量合成图像平衡数据集,并结合深度卷积神经网络的特征提取能力,实现了对五级DR严重程度的准确分类。该模型在准确率(73%)、召回率(73%)、精确度(72.6%)和F1分数(73.2%)上均表现出色,优于传统方法和其他主流CNN架构。

这项研究的重要意义在于:首先,为处理医学影像数据不平衡问题提供了有效的技术解决方案;其次,开发的分类模型能够辅助眼科医生进行快速、准确的DR诊断,特别在资源有限的医疗环境中具有重要应用价值;最后,该方法可扩展到其他医学影像分类任务中,具有广泛的适用性和推广价值。研究成果发表在《Franklin Open》,为人工智能在医学影像分析领域的应用提供了重要参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号