基于深度学习的视网膜病变AI早期诊断：聚焦糖尿病视网膜病变及其他疾病的多重检测策略

【字体：大中小】 时间：2025年10月07日 来源：International Journal of Biomedical Imaging 1.3

编辑推荐：

　　本综述系统探讨了人工智能（AI）在视网膜疾病早期诊断中的应用，重点介绍了基于深度学习（特别是卷积神经网络CNN）的光学相干断层扫描（OCT）图像分析方法。研究通过改进Inception架构，结合迁移学习和数据增强技术，实现了对糖尿病黄斑水肿（DME）、脉络膜新生血管（CNV）、玻璃膜疣及正常视网膜的高精度分类（准确率达94.2%，F1分数超92%），为临床提供了一种自动化、高灵敏度的辅助诊断工具，推动了AI在眼科临床工作流程中的整合与应用。

Abstract

多种视网膜疾病，如糖尿病黄斑水肿（DME）和脉络膜新生血管（CNV），具有导致视力损伤和失明的显著风险。通过自动化、准确且先进的系统进行早期检测，可极大改善患者及医务人员的临床结局。本研究旨在开发一种基于深度学习的模型，利用OCT图像实现视网膜疾病的早期检测。研究采用了一个公开的视网膜图像数据集，包含DME、CNV、玻璃膜疣及正常案例的图像。通过Inception模型进行训练和验证，并计算了包括准确率、精确度、召回率和F₁分数在内的多项性能指标。所提出的模型达到了94.2%的准确率，所有类别的精确度、召回率和F₁分数均超过92%。统计分析证明了模型在不同折次验证中的稳健性。研究结果凸显了AI驱动系统在改善视网膜疾病早期检测方面的潜力，为整合到临床工作流程铺平了道路。未来需进一步努力，通过将其部署于眼科医师的移动设备实现离线使用，以简化诊断流程并为患者提供更优质的服务。

1. Introduction

糖尿病视网膜病变（DR）会损害眼睛光敏感部分的血管，并在缺乏明显感觉的情况下导致失明，初期通常无症状。支持视网膜损伤早期诊断的经济适用技术需求迫切。例如，眼底照相、荧光素血管造影和光学相干断层扫描（OCT）设备等诊断模式价格昂贵，且仅在医疗环境中可用。这一挑战构成了DR管理与控制的重要障碍：缺乏个性化风险模型以及无法准确预测疾病发生和进展的时间。因此，创建此类模型至关重要且被高度推荐。

另一方面，随着深度学习，特别是卷积神经网络（CNN）的出现，发生了显著变革。CNN凭借其从数据中获取和提取分层特征的能力，如今在DR检测准确性方面取得了重要进展。各种数字技术已开始提供改善糖尿病管理和DR筛查的集成解决方案，然而，它们仍需更多培训以便医疗专家更易使用。现有研究主要聚焦于如DR等单一视网膜疾病，利用单一AI模型进行多病症检测的研究有限。此外，许多AI系统因数据集偏差或跨折次稳健性评估不足而缺乏临床适用性。开发可供眼科医生下载到智能手机上以精确识别视网膜疾病的应用程序被视为一项初步研究。

本研究采用了一个精心策划的OCT数据集，包含分为四个临床重要类别的视网膜图像：正常、脉络膜新生血管（CNV）、糖尿病黄斑水肿（DME）和玻璃膜疣。CNV和玻璃膜疣通常与年龄相关性黄斑变性（AMD）相关，而DME是糖尿病视网膜并发症的关键表现。这些多样化病理的纳入使模型能够有效区分健康与病变视网膜，并识别与糖尿病和非糖尿病相关的视网膜异常。所有图像均经过眼科医生和视网膜专家的仔细分级和验证，以确保标签准确性。

本研究通过开发一个全面的深度学习模型来弥合这些差距，该模型能够使用稳健的方法检测多种视网膜疾病，其主要目标是开发一个利用卷积神经网络自动、准确识别不同类别视网膜疾病的模型。

研究贡献包括：

•
开发一个端到端的深度学习系统，利用CNN自动提取特征。
•
与其他从零开始训练CNN的研究不同，本研究使用迁移学习从预训练网络中提取知识，有助于减少训练时间同时提高小数据集的泛化能力。
•
使用全面的性能指标评估模型，并突出类别特异性性能。

2. Methodology

2.1. Dataset Description

OCT图像选自多个机构的成年患者回顾性队列。数据集分为三个文件夹（训练、测试和验证），每个文件夹包含以下图像类别的子文件夹：正常、CNV、DME和玻璃膜疣。图像分为四个目录：CNV、DME、玻璃膜疣和正常，标记为（疾病）-（随机患者ID）。在训练前，每张图像均经过三层分级系统进行标签验证和校正，包括本科生和医学生进行初始质量控制、眼科医生独立评分以及高级视网膜专家最终验证标签。两位眼科医生独立评分了一个包含993张图像的验证子集；本研究使用该子集测试模型性能。表1提供了OCT图像类别的详细概述，包括每个类别的计数。图1和图2分别展示了样本OCT图像以及各类别图像数量分布的柱状图。

表1. 数据集类别计数

Class	Count
CNV	37,205
DME	11,348
Drusen	8,616
Normal	26,315

2.2. Data Preprocessing

图像经过预处理阶段以提高质量。从Kaggle收集的图像尺寸被调整为299×299像素以匹配Inception模型的要求。不同的CNN在训练数据上进行分类。标准化过程确保所有图像在训练和测试期间得到有效处理。此外，OCT图像被归一化到[0,1]范围。

2.2.1. Data Resizing

标准化过程确保所有大小为299×299像素的图像在训练和测试期间得到有效处理。调整大小后的图像如图3所示。

2.2.2. Data Augmentation

由于数据集不平衡，在其上训练深度学习模型会导致对主导类别的结果偏差。为此，使用数据增强技术（如剪切变换、随机缩放和随机裁剪）在训练过程中创建更平衡的数据集，这有助于模型对新图像更稳健。

2.2.3. Data Split

在视网膜OCT图像的机器学习中，数据按70%、20%和10%的比例分为训练集、验证集和测试集。验证集用于在训练期间验证模型性能，测试集用于训练完成后对模型进行最终评估。

2.3. Inception and VGG16

选择Inception模型（图4）是因为其能有效提取多尺度特征，这对于视网膜图像中可变的纹理和模式至关重要。与ResNet或DenseNet不同，Inception的架构在保持高精度的同时优化了计算效率。它是图像分类和检测中使用的最新架构，通过优化网络内的计算资源来高效捕获不同级别的各种特征，允许增加宽度和深度的深度网络同时管理计算复杂性，并增强图像处理任务的速度和性能。初步训练使用VGG16架构，未添加额外层或修改（除最后一层决策层外），并与Inception（同样无额外层或修改）进行比较，这有助于在两种架构中选择适用于 proposed network 的方案。

2.4. Proposed Network

使用迁移学习方法利用预训练模型（本例为在ImageNet数据集1000个类别上预训练的Inception）的知识，以改进和加速在较小新数据集上的性能。该方法通常通过冻结除最后一层外的所有层来实现，但本研究冻结了除最后四层外的所有层，这产生了更高的性能，并允许模型在保留初始训练期间学习的重要特征的同时适应我们的数据。该方法减少了过拟合的风险，同时降低了从头训练模型所需的计算能力和时间。

接下来，添加一个分别具有256和128个神经元的全连接层以增强Inception架构，使模型能够通过这些额外层学习分类问题的复杂表示。在训练期间使用分类交叉熵作为损失函数，因为多类分类问题的目标是将输入分配到多个可能类别之一；该损失函数效果良好，因为它测量了真实分布（由地面真实标签表示）与模型产生的预测概率分布之间的差异。分类交叉熵数学表达式如下：

L = -∑{i=1}^{C} y_i log(?i)

其中C是类别数，y_i是真实标签（如果类别正确则为1，否则为0），?_i是类别i的预测概率。损失函数在预测概率远离真实标签时对模型惩罚更多，以鼓励模型产生尽可能接近真实标签的预测。

在全连接层之后、softmax激活函数之前添加了一个0.5的dropout正则化层。在训练期间，dropout用于随机“丢弃”或消除一部分神经元，迫使网络产生更稳健的特征集，并防止模型过度依赖任何单个神经元。这种正则化保持了模型对测试数据的适用性。

softmax函数应用于输出层，将模型的原始输出分数转换为概率，确保所有概率之和为一。softmax函数数学定义如下：

σ(z)j = e^{z_j} / ∑{k=1}^{C} e^{z_k}

其中z_j表示类别j的原始输出分数，C是总类别数。softmax函数确保网络的预测可解释为概率，从而更容易根据最高概率将输入分配到特定类别。

所有训练均使用Adam优化器进行，这是一种流行的优化算法，结合了AdaGrad和RMSProp算法的优点。Adam根据每个参数的梯度一阶和二阶矩估计调整学习率，从而实现更好的性能和更快的收敛。为了在训练和测试期间帮助模型更好地泛化到少数类别，使用了类别权重，通过为少数类别分配较高权重、多数类别分配较低权重来调整模型的损失函数。通过这种调整，能够利用预训练Inception模型的学习特征，使其适应我们的数据集和分类目标。图5展示了 proposed method 的流程图。

2.5. Evaluation Metrics

在评估视网膜病变分类深度学习模型时，准确率、精确度、召回率和F₁分数是帮助理解模型性能的重要指标，这些指标表示如下：

准确率 = (TP + TN) / (TP + TN + FP + FN)

精确度 = TP / (TP + FP)

召回率 = TP / (TP + FN)

F₁分数 = 2 × (精确度 × 召回率) / (精确度 + 召回率)

其中TP为真阳性，TN为真阴性，FP为假阳性，FN为假阴性。准确率测量了正确分类案例在总数中的百分比，但不应仅依赖它；这就是为什么使用精确度来测量模型在没有产生过多FP的情况下检测真实视网膜病变案例的能力。相反，召回率评估模型识别所有真实发生的视网膜病变类别的能力，以确保没有案例被遗漏。最后，为了同时考虑FP和FN，F₁分数通过将精确度和召回率结合为一个单一度量来提供模型性能的平衡评估。

此外，使用混淆矩阵（图6）作为性能评估工具，特别是在分类中，它通过将预测类别与真实类别制表来总结分类模型的性能。在视网膜病变多类分类的背景下，它看起来类似这样。

3. Results and Discussion

本节介绍了使用迁移学习与Inception架构进行OCT图像视网膜病变分类所获得的结果。使用前述指标（如准确率、精确度、召回率、F₁分数、混淆矩阵和分类报告）评估方法性能。通过系统比较与现有方法，对实验结果进行了详细分析，强调了 proposed model 的优势和劣势。

准确率评估作为比较不同分类技术的标准。模型在训练数据集上的初始准确率约为80.43%，这表明80.43%的训练样本被正确识别。训练准确率随着每个epoch增加，表明模型正在从输入中有效学习。验证准确率开始时略高于训练准确率，并在epoch中增加，到第五个epoch达到约91.28%。验证准确率在未用于训练的16,696张图像的不同数据集上评估性能，这表明对未知数据具有良好的泛化能力（对于Inception网络，五个epoch的损失和准确率值参见表2）。

表2. Proposed Inception网络在五个epoch中训练和验证的损失和准确率值

Epoch	Loss	Accuracy	Validation Loss	Validation Accuracy
1	0.9403	80.44%	0.3362	87.21%
2	0.3426	88.33%	0.3391	88.05%
3	0.2994	89.76%	0.2936	90.19%
4	0.2732	90.68%	0.2999	90.27%
5	0.2517	91.28%	0.3044	89.90%

相比之下，初始VGG16模型（未解冻且无额外自定义层训练）表现出不同的结果，如表3所示。这些结果表明Inception架构对此数据的性能优于VGG16，因此选择Inception作为 proposed network 的预训练模型。

表3. 仅使用迁移学习且未解冻的预训练VGG16结果

Epoch	Training Loss	Training Accuracy	Validation Loss	Validation Accuracy
1	0.489468	82.45%	0.415917	85.39%
2	0.462101	83.43%	0.404933	85.18%
3	0.456036	83.62%	0.392021	85.57%
4	0.448369	84.06%	0.381004	86.25%
5	0.4233	84.90%	0.3658	87.20%

模型初始训练损失为0.44，表示预测值与实际值之间的差异，但该损失随着epoch减少，表明预测变得越来越准确。验证损失显示了模型对新数据的泛化能力，它也在epoch中减少。损失减少和准确率增加之间的关系突出了模型从新数据中学习和适应的效果。随着损失减少，模型在训练和验证数据集上的准确率增加。这种模式指向增强的输出和快速学习。图7显示了Inception网络每个epoch的训练和验证准确率曲线，图8显示了每个epoch的训练和验证损失。此外，图9清楚显示了VGG16多个epoch的训练和验证准确率。

使用由两位眼科医生分级的968张OCT图像针对地面真实评估该模型。模型的分类结果总体正确，准确率为90.73%。模型呈现了非常低的FP概率，这意味着其预测阳性 mostly very reliably，精确度为91.36%。模型还具有90.73%的召回率，意味着它能够以高准确率找到真实阳性案例，但漏检较少。模型有效平衡召回率和精确度的能力由其90.78%的F₁分数证明，这显示了在正确识别真实阳性的同时防止FP的性能。总的来说，这些指标提供了模型有效性的全面评估，如表4所示。为了将我们的结果与视网膜病变分类和检测的最新研究进行比较，使用VGG16进行分类发现准确率为78.3%。同时，使用Inception获得了90.73%。该团队使用了fast AI库，并发现了80%的准确率。然而，我们使用Inception获得了低损失和高准确率（约90.73%）。该团队使用了新方法检查结果表明，EyeCheck算法检测到超过最小DR案例的AUC为0.839，Challenge2009算法的AUC为0.821，差异无统计学意义。如果两种算法结合检测DR，检测的AUC为0.86，但我们使用VGG16获得了86%的准确率，然后使用Inception获得了90.73%的准确率。其他研究使用CNN发现了80%的准确率，而本研究使用Inception获得了90.73%。

表4. 测试数据的准确率、精确度、召回率和F₁分数指标

Accuracy	Precision	Recall	F₁score
90.2%	91.36%	90.73%	90.78%

模型在四个类别（CNV、DME、玻璃膜疣和正常）上的性能评估可在表5的分类报告中找到，以更清楚地了解每个类别相对于其他类别的分类情况，每个类别242个案例，总共968个支持。

表5. 每个类别的详细分类报告

Class	Precision	Recall	F₁score	Support
CNV	0.85	0.92	0.88	242
DME	0.93	0.87	0.90	242
Drusen	0.89	0.81	0.85	242
Normal	0.92	0.99	0.96	242
Average	0.90	0.90	0.90	968

此外，模型在每个类别中的性能显示在图10的混淆矩阵输出中。TP、TN、FP和FN预测的数量显示在网格上。借助该矩阵，可以检查模型的潜在整体性能，这使得更容易识别预测性能中的任何不平衡，以及识别哪些特定区域可能需要微调，以及模型的具体弱点和优势。

尽管当前模型专注于使用OCT图像进行视网膜病理的多类分类，但它为在眼科开发更个性化和预测性工具提供了基础步骤。通过高精度区分DME、CNV、玻璃膜疣和正常视网膜等条件，模型有助于根据疾病的具体类型和阶段对患者进行分层。这种分层可以通过整合纵向OCT数据或临床历史在未来工作中扩展，从而能够预测疾病随时间的进展。因此，虽然模型目前不预测疾病发生或进展的确切时间，但它为未来研究中的此类个性化建模创建了必要的基础结构。

4. Conclusion

如今，视网膜病变持续成为成年人中的棘手问题，需要巨大需求在早期阶段解决问题以消除失明机会。当前，人工智能（AI）和机器学习（ML）被用作诊断和分类多种视网膜病变疾病的评估方法。本文提供了我们基于机器学习的视网膜病变诊断调查的结果。Inception增强了视网膜病变诊断，通过准确、敏感的眼底图像分析和早期检测改善患者结局。目标是使用机器学习和Inception架构创建用于OCT图像基于视网膜病变检测和诊断的可靠模型。在未来的日子里，这项工作可以被视为更多模型的基础，这些模型采用更大的数据集以更高的准确率和更少的努力识别DR的不同阶段。虽然当前研究专注于使用OCT图像进行视网膜病理的多类分类，但未来研究可以通过整合患者特异性临床数据和纵向OCT扫描来扩展该模型。这将实现更个性化的风险评估，并可能允许准确预测疾病发生和进展，与开发用于主动眼科护理的智能系统的目标保持一致。

Conflicts of Interest

作者声明无利益冲突。

Funding

本手稿未收到任何资金。

Acknowledgments

作者感谢Thi-Qar大学工程学院生物医学工程系为顺利完成本工作提供的宝贵支持。

热点排行

新闻专题