编辑推荐:
为解决从视网膜眼底图像识别视网膜疾病时,存在的图像质量和数量影响诊断、大样本不均衡易出错、传统深度学习难以识别轻度疾病特征等问题,研究人员开展基于自动编码器和生成对抗网络(GAN)的视网膜疾病分类研究,结果显示该模型多项指标提升,有助于精准诊断。
在人类的视觉系统中,视网膜扮演着至关重要的角色,它就像一台精密相机的感光底片,接收光线并将其转化为神经信号,传递给大脑,让我们得以感知五彩斑斓的世界。然而,视网膜却十分脆弱,容易受到多种疾病的侵袭。像青光眼、年龄相关性黄斑变性(AMD)、糖尿病性视网膜病变(DR)等眼部疾病,每年都在全球范围内影响着数以亿计的人,成为人们视力的 “隐形杀手”。
目前,从视网膜眼底图像识别视网膜疾病面临诸多挑战。一方面,诊断系统的性能极大地依赖于图像的质量和数量。如果图像质量不佳,就如同用一台模糊的相机拍照,关键信息难以捕捉,很容易导致误诊或漏诊;而图像数量不足,又无法为诊断提供充分的依据。另一方面,当使用大规模不均衡的数据库时,诊断更容易出错。这就好比在一堆参差不齐的拼图中寻找特定的图案,错误的概率大大增加。此外,传统的深度学习方法在面对轻度视网膜疾病时,就像一个视力不好的人在昏暗光线下看东西,难以学习到足够深入的特征来准确识别。
为了攻克这些难题,来自未知研究机构的研究人员开展了一项极具意义的研究,他们将深度学习与自动编码器、生成对抗网络相结合,致力于找到一种更精准、高效的视网膜疾病分类方法。研究成果发表在《Biomedical Signal Processing and Control》上。
研究人员采用了以下几个关键技术方法:首先,利用生成对抗网络(GAN)收集并去噪输入图像,同时借助 Gabor 小波增强图像质量。其次,运用 ResNet - 50 结构生成合成图像,以此来处理较高的误报率(FAR)和类别不平衡相关问题。最后,通过深度自动编码器将视网膜眼底图像分为良性和恶性两类。研究使用的样本数据来源于视网膜疾病分类 Kaggle 数据集。
下面来看看具体的研究结果:
- RGAN 模型设计:研究设计了基于 ResNet 的 RGAN 模型用于识别和分类视网膜疾病。该模型利用 ResNet - 50 结构生成合成图像,帮助训练诊断系统。同时,通过深度自动编码器对图像进行分类,从原理上为精准诊断提供了新的思路和方法。
- 图像预处理与特征提取:先对所有输入的光学相干断层扫描(OCT)图像进行预处理和归一化,确保图像数据的一致性和可用性。然后,在每次训练迭代中,使用 ResNet - 50 从输入图像中提取深度特征。这些深度特征就像是图像的 “指纹”,蕴含着疾病的关键信息,为后续的分类提供了重要依据。
- 模型训练与更新:在训练过程中,生成器(G)从随机噪声中生成合成图像。判别器(D)则在监督模式下,使用 softmax 将标记图像分类为 M 类,并计算相关指标;在无监督模式下,判别器区分真实图像和合成图像,同样计算相关指标。生成器(G)通过提高判别器(D)误分类的可能性来进行更新。通过这样不断地训练和更新,模型的性能得到逐步提升。
- 实验结果评估:研究人员使用来自视网膜疾病分类 Kaggle 数据集的数据进行实验。结果显示,与其他流行技术相比,所提出的 RGAN 模型表现出色,准确率达到 95.6%,灵敏度为 96.4%,特异性为 97.3%,F1 评分达到 93.4%。这表明该模型在识别视网膜疾病方面具有较高的可靠性和准确性。
从研究结论和讨论部分来看,这项研究意义重大。基于 ResNet 的生成对抗网络(RGAN)模型与深度自动编码器系统相结合,确保了视网膜疾病的准确识别和分类。由于增强了特征提取过程和图像分析过程,该模型在性能上优于现有方法。它能够有效处理类别不平衡问题,显著提升了诊断系统的各项指标,为眼科医生提供了更有力的诊断支持,有助于实现视网膜疾病的早期发现和及时治疗,从而减少因视网膜疾病导致的视力损伤,对全球众多视力受损人群来说,无疑是一个重大的利好消息。它也为后续相关领域的研究提供了新的方向和思路,推动了视网膜疾病诊断技术的发展。