基于ResNet50、VGG16和Swin Transformer多数投票集成的深度学习青光眼检测方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月16日 来源：Results in Engineering 7.9

编辑推荐：

　　本研究针对青光眼早期诊断难题，提出了一种融合ResNet50、VGG16和Swin Transformer的多数投票集成学习方法。通过在ORIGA数据集上的验证，该集成模型实现了82.43%的准确率和0.93的AUC值，显著提升了青光眼检测的准确性和鲁棒性，为自动化筛查提供了有效解决方案。

青光眼作为全球不可逆性失明的主要原因之一，被称为"视力的沉默窃贼"，其早期症状隐匿但危害巨大。据统计，2020年全球青光眼患者已达7600万人，预计到204年将增长至1.118亿人，成为重大的公共卫生问题。传统的筛查方法包括眼压测量、视野检查和光学相干断层扫描（OCT）等，但这些方法往往成本高昂、耗时较长，在医疗资源匮乏地区尤其难以普及。

随着人工智能和深度学习技术的发展，基于卷积神经网络（CNN）的自动化青光眼检测方法显示出巨大潜力。然而，单个深度学习模型在应对眼底图像质量差异、设备多样性以及图像伪影等问题时仍面临挑战。数据稀缺性和图像质量变化等问题进一步增加了构建鲁棒模型的难度。

为了解决这些问题，研究人员在《Results in Engineering》上发表了这项创新研究，提出了一种集成多种深度学习架构的多数投票方法。该研究通过结合ResNet50、VGG16和Swin Transformer三种模型的优势，旨在提高青光眼检测的准确性和可靠性，为临床诊断提供有效的决策支持工具。

研究采用了几项关键技术方法：首先使用ORIGA数据集（包含650张专家标注的视网膜眼底图像及相关结构化数据），通过选择性数据增强处理类别不平衡问题；其次分别训练ResNet50（TensorFlow）、VGG16（TensorFlow）和Swin Transformer（PyTorch）三个独立模型；最后采用多数投票集成策略融合三个模型的预测结果。所有实验在混合计算环境中完成，包括本地系统、Kaggle和Google Colab平台，利用GPU加速训练过程。

3.1. 数据集

研究使用ORIGA（Online Retinal Fundus Image Database for Glaucoma Analysis）数据集，包含650张视网膜眼底图像，其中168例为青光眼阳性，482例为青光眼阴性。数据集还提供了包括杯盘比（CDR）、眼侧性（OD/OS）和青光眼标签在内的结构化元数据。尽管数据集存在类别不平衡（青光眼阳性约占25.8%），但通过选择性增强技术得到了缓解。

3.2. 预处理

预处理流程包括数据验证、增强、转换和分割。针对青光眼阳性类别专门应用了数据增强技术，包括±15°随机旋转、10%宽度和高度偏移、0.1剪切范围、0.1缩放范围和随机水平翻转等操作。最终生成504个青光眼阳性样本（168原始+336增强）和482个阴性样本，实现了更平衡的数据表示。

3.3. 模型训练

所有三个神经网络均独立训练，使用Adam优化器、分类交叉熵损失函数和学习率调度器。ResNet50训练50个周期，VGG16和Swin Transformer各训练25个周期，批量大小均为32，采用早停策略防止过拟合。

3.4. ResNet50

ResNet50通过残差连接缓解梯度消失问题，采用瓶颈架构和全局平均池化层，最终添加256单元密集层和SoftMax分类层用于区分青光眼和非青光眼图像。

3.5. VGG16

VGG16采用均匀架构和小型3×3卷积核，通过扁平化层转换为特征向量，添加256单元密集层、0.5丢弃层和最终SoftMax分类层。

3.6. Swin Transformer

Swin Transformer使用移位窗口注意力机制处理图像块，能够建模局部和全局依赖关系，特别适合检测与青光眼相关的结构变形。

3.7. 使用多数投票的集成模型

集成策略采用多数投票方法，每个模型首先生成概率分布，然后通过硬类预测和多数投票确定最终输出。该方法有效结合了CNN和Transformer架构的优势，提高了模型的鲁棒性和泛化能力。

3.8. 计算资源和时间消耗

实验在混合计算环境中进行，包括本地系统（Intel i5-1335U处理器，16GB RAM）、Kaggle（NVIDIA Tesla P100 GPU）和Google Colab（NVIDIA Tesla T4 GPU）。ResNet50训练约2分钟，VGG16训练约2分30秒，Swin Transformer训练25分10秒，集成模型单图像平均推理时间为10.27毫秒。

4. 评估指标

研究使用准确率、敏感性（召回率）、特异性、精确度、F1分数和AUC-ROC曲线等多种指标全面评估模型性能。

5. 结果

5.1. 个体模型和集成模型的性能比较

VGG16表现最佳，准确率达87.16%，两类别的精确度和召回率均衡。Swin Transformer准确率为83.78%，但青光眼检测召回率最高（0.91）。ResNet50准确率为76.35%，青光眼召回率较低（0.63）。集成模型准确率为82.43%，实现了宏观平均精确度0.84、召回率0.83和F1分数0.82。

5.2. ROC曲线分析

集成模型获得最高AUC分数0.93，VGG16和Swin Transformer均为0.92，ResNet50为0.87。ROC曲线表明集成方法有效利用了各模型的优势。

5.3. 模型训练和验证性能曲线

ResNet50显示轻度过拟合，VGG16收敛平滑有效，Swin Transformer表现出对超参数的敏感性和后期过拟合倾向。

6. 讨论

研究结果表明，集成学习方法能够有效结合各模型的优势，提高青光眼检测的整体性能。虽然集成模型的准确率不是最高，但其在减少假阳性方面表现良好，这对于避免不必要的随访检查和减轻医疗负担具有重要意义。

7. 局限性和未来工作

当前研究存在一些局限性，包括数据集相对较小和类别不平衡问题。未来研究可以探索加权多数投票等更先进的集成策略，并在更大规模、更多样化的数据集上进行验证。多模态数据整合（如结合眼底图像和OCT数据）也是未来的重要方向。

8. 结论

该研究开发了一种基于多数投票集成的深度学习框架，用于青光眼检测。虽然集成模型的整体准确率不是最高，但它在平衡性能和减少假阳性方面表现出优势。通过结合CNN和Transformer架构的优势，该研究为自动化青光眼筛查提供了有前景的解决方案，具有重要的临床应用价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号