编辑推荐:
推荐
视网膜疾病识别颇具挑战,为区分获得性卵黄样病变(AVL)、黄斑玻璃膜疣(drusen)与健康情况,研究人员提出残差自注意力视觉 Transformer(RS-A ViT)。其在 OCT 图像分类中表现优异,准确率达 96.62%,为眼科诊断提供新工具。
论文解读
在眼科领域,准确识别视网膜疾病一直是临床与科研的重点难题。年龄相关性黄斑变性(AMD)作为导致老年人视力下降的主要原因之一,其典型特征如黄斑玻璃膜疣(drusen)与获得性卵黄样病变(AVL)在光学相干断层扫描(OCT)图像上极易混淆,误诊可能导致治疗延误,严重影响患者预后。传统基于卷积神经网络(CNN)的深度学习模型虽在视网膜疾病分类中取得一定进展,但在处理 AVL 这类特征细微、易与其他病变混淆的病症时,仍存在特征提取不够精准、模型泛化能力不足等问题。在此背景下,探索更高效的算法以提升视网膜疾病的自动诊断精度成为迫切需求。
波兰卢布林理工大学计算机科学系与卢布林医科大学普通及儿科眼科等机构的研究人员,针对 AVL 与 drusen 的鉴别诊断难题,开展了基于视觉 Transformer(ViT)的改进研究。研究团队提出一种新型残差自注意力视觉 Transformer(RS-A ViT)模型,旨在通过优化注意力机制,提升模型对视网膜病变特征的捕捉能力。该研究成果发表于《Scientific Reports》,为视网膜疾病的智能诊断提供了重要突破。
研究人员采用的关键技术方法包括:首先构建了包含 AVL、drusen 及健康样本的新数据集,其中 AVL 数据来自意大利费德里科二世大学眼科诊所与波兰卢布林医科大学的两个研究中心,drusen 和正常样本则取自公开的 OCT 数据集。其次,运用数据增强技术(如旋转、缩放、颜色抖动等)扩大样本量,缓解小数据集带来的过拟合问题。最后,利用 Grad-CAM 可视化技术验证模型对 OCT 图像中病变区域的关注能力。
研究结果
- 模型性能对比:通过与 EfficientNet、InceptionV3、ResNet50、VGG16 及标准 ViT 模型对比,RS-A ViT 在 AVL、drusen 和正常样本的分类中表现最优,总体准确率达 96.62%,显著高于传统 CNN 模型及标准 ViT。在正常样本分类中,RS-A ViT 准确率达到 100%,显示出其对健康与病变样本的强区分能力。
- 注意力机制优化效果:引入残差自注意力模块替代传统自注意力机制,有效缓解了深层网络中特征坍塌问题。通过结合浅层与深层的注意力信息,模型能够更全面地捕捉病变的局部细节与全局特征,Grad-CAM 可视化结果显示,RS-A ViT 对 AVL 和 drusen 的核心病变区域聚焦更精准,减少了对周围组织的误判。
- 数据增强的作用:对比有无数据增强的实验结果,数据增强显著提升了所有模型的分类性能,尤其在小样本的 AVL 类别中,RS-A ViT 的准确率从 87.64% 提升至 93.33%,证明数据增强对提升模型泛化能力的重要性。
研究结论与意义
本研究成功开发了一种高效的视网膜疾病分类模型 RS-A ViT,其通过残差自注意力机制的创新设计,显著提升了对 AVL 和 drusen 的鉴别诊断精度。研究结果表明,RS-A ViT 在准确率、精确率、召回率等关键指标上均优于传统深度学习模型,且具备良好的可解释性,Grad-CAM 可视化证实其能准确关注病变区域。该模型为眼科医生提供了一种可靠的辅助诊断工具,有望缩短临床诊断时间,减少误诊率,尤其在 AVL 这类易混淆病症的早期识别中具有重要应用价值。此外,研究中构建的数据集与优化方法为后续视网膜疾病的人工智能研究提供了可借鉴的范式,推动了深度学习在医疗影像领域的进一步发展。