DenseWave-OCT：一种结合深度学习(Deep Learning)与小波散射(Wavelet Scattering)框架用于光学相干断层扫描(Optical Coherence Tomography, OCT)图像多类别视网膜疾病分类的混合方法

《Computer Standards & Interfaces》：DenseWave-OCT: A Hybrid Deep Learning and Wavelet Scattering Framework for Multi-Class Retinal Disease Classification in Optical Coherence Tomography Images

【字体：大中小】 时间：2026年06月14日 来源：Computer Standards & Interfaces 3.1

编辑推荐：

　　光学相干断层扫描（Optical Coherence Tomography, OCT）是视网膜疾病早期检测的关键成像模态；然而，现有的自动化分析方法仍受限于散斑噪声（speckle noise）、异质性病变形态学特征及细微的类别间纹理差异。本研究提出Dense

光学相干断层扫描（Optical Coherence Tomography, OCT）是视网膜疾病早期检测的关键成像模态；然而，现有的自动化分析方法仍受限于散斑噪声（speckle noise）、异质性病变形态学特征及细微的类别间纹理差异。本研究提出DenseWave-OCT，一种混合分类框架，其集成了从预训练DenseNet-121骨干中提取的深度语义表示与旨在捕获细粒度结构和纹理模式的多尺度小波散射系数（wavelet scattering coefficients）。将这两种互补特征在特征层进行融合得到统一描述子，随后送入全连接分类器。所提框架在两个公开基准数据集OCT2017和Retinal OCT-C8上进行了评估，并与已建立的卷积神经网络（Convolutional Neural Network, CNN）基线进行对比。DenseWave-OCT在两个数据集上分别达到99.48%和98.29%的分类准确率，优于所有被评估的基线模型。这些结果表明，将深度卷积特征与基于小波的纹理表示相结合，可为基于OCT的视网膜疾病分类产生更具判别力和鲁棒性的描述子，为临床可靠的自动化诊断工具提供了有前景的方向。

论文解读：DenseWave-OCT——基于深度学习与 wavelet scattering 的 OCT 视网膜疾病多分类混合框架

一、研究背景与立题依据

光学相干断层扫描（Optical Coherence Tomography, OCT）是眼科临床中用于获取视网膜组织高分辨率横断面结构信息的重要非侵入成像模态，对年龄相关性黄斑变性（Age-related Macular Degeneration, AMD）、糖尿病性黄斑水肿（Diabetic Macular Edema, DME）等视网膜疾病的早期发现至关重要。然而，OCT 图像固有的散斑噪声（speckle noise）、病变形态异质性大及不同疾病类别间纹理差异细微，给人工阅片和传统卷积神经网络（Convolutional Neural Network, CNN）自动分析带来挑战。常规 CNN（如 DenseNet-121、VGG、Xception 等）虽能提取高层语义特征，但对多尺度细粒度纹理及抗形变稳定的捕捉能力有限，易导致相似病变（如 CNV 与 DME、Drusen 与 NORMAL）的混淆。为克服上述局限，研究人员提出了融合预训练 CNN 深度语义特征与 wavelet scattering transform（小波散射变换）多尺度纹理描述的双通路混合框架——DenseWave-OCT，并在两个公开 OCT 基准数据集上验证其性能。

二、主要关键技术方法

研究人员采用公开基准数据集 OCT2017（84,452 张，4 类：CNV、DME、Drusen、NORMAL）与 Retinal OCT-C8（24,000 张，8 类：CNV、DME、CSR、AMD、Drusen、MH、DR、NORMAL），按原文给定比例划分训练/验证/测试集。预处理含缩放至 224×224 像素、零均值单位方差强度归一化及含随机翻转旋转平移亮度调整的数据增广。模型构建双通路：(1) DenseNet-121 预训练于 ImageNet 提取全局高层语义特征向量 F_d；(2) Morlet 小波散射变换（J=3 尺度，L=8 方向，最大阶数 m=2）提取平移不变多尺度纹理特征向量 F_s；两路经 L₂归一化后直接拼接融合（F_fused=[F_d∥F_s]），再通过带 ReLU 的全连接投影层输入 Softmax 分类头。训练使用 Adam 优化器（学习率 1e-4，批次 16，Dropout 0.3/0.5，权重衰减 1e-5）及交叉熵损失，以 Accuracy、Precision、Recall、F₁-Score、Cohen's Kappa 及多分类 AUC 进行评估，并与 DenseNet121、MobileNetV2、Xception、VGG16、VGG19 五个迁移学习基线对比。

三、研究结果

3.1 Analysis of the performance of the DenseWave-OCT model, using the Retinal OCT-C8 dataset

在 8 类 Retinal OCT-C8 数据集上，DenseWave-OCT 取得 Accuracy 98.29%、Precision 98.29%、Recall 98.29%、F₁-Score 98.29%、Cohen's Kappa 98.04%，显著优于最佳基线（MobileNetV2 86.39%）。逐类分析显示 AMD、CSR、DR、MH 达完美 100% 各项指标，其余四类也保持 95%–98% 高水平，混淆矩阵显示近对角优势且误分类极少，证明 wavelet scattering 补充的纹理特征有效提升了相似类别区分能力。训练/验证损失平稳下降且无过拟合，准确率快速收敛至约 98%。

3.2 Performance analysis of the DenseWave-OCT model, using the OCT2017 dataset

在 4 类 OCT2017 数据集上，DenseWave-OCT 取得 Accuracy 99.48%、Precision 99.49%、Recall 99.48%、F₁-Score 99.48%、Cohen's Kappa 99.31%，优于最佳基线（DenseNet121 92.87%）。逐类 CNV 召回 98.35%、DME 与 Drusen 召回 100%、NORMAL 精确 100%，混淆矩阵较基线大幅减少 CNV/DME、Drusen/NORMAL 间误判。训练曲线显示损失平滑下降至约 0.06，验证准确率稳定于 97%–99%。

四、讨论与结论总结

讨论部分指出：单纯 CNN 受局部卷积限制难以捕获大空间依赖及抗噪细纹理；Vision Transformer（ViT）需大数据与高算力；CNN–wavelet 混合可兼顾语义与频域多尺度信息。与同期 Transformer 混合（98.98%/96.21%）、多模态 AI（98.9%/98%）、自监督（97%）、多分形 MLP（98.02%）等方法比，DenseWave-OCT 在两类数据集均报告更高准确率且对难分辨病变具更好泛化性，架构轻量不需大规模预训练 Transformer，适合医学小样本场景。作者亦指出未来需在多中心数据验证、引入可解释性、轻量化部署及融合多模态（眼底照相、纵向随访、临床元数据）方向拓展。

结论（翻译）： 本研究提出 DenseWave-OCT——一种结合预训练 DenseNet-121 深度特征提取与小波散射（wavelet scattering）细粒度纹理分析的混合深度学习框架，用于 OCT 图像中视网膜疾病的自动化分类。该模型旨在克服散斑噪声及病变外观异质性带来的挑战，以提升分类准确率。实验评估表明，DenseWave-OCT 在 OCT2017 数据集上达到 99.48% 准确率，在 Retinal OCT-C8 数据集上达到 98.29% 准确率，优于所评估的基线 CNN 架构。研究结果显示，所提系统在涵盖多种视网膜疾病类别的两个公开数据集上表现出色，且在精确率（Precision）、召回率（Recall）及 F₁分数上均衡良好，表明其具备作为计算机辅助视网膜图像分析工具用于早期疾病筛查的潜在应用价值。

热点排行