Conv-ViT:一种改进的基于离散卷积的视觉变换器,用于糖尿病视网膜病变检测

《Franklin Open》:Conv-ViT: An Improved Discrete Convolution-Based Vision Transformer for Diabetic Retinopathy Detection

【字体: 时间:2025年12月26日 来源:Franklin Open CS1.4

编辑推荐:

  提出Conv-ViT混合框架,通过概率粒子群优化(PBPSO)分割、局部二值模式(LBP)特征提取和电鱼优化算法(EFAOA)调参,结合卷积神经网络与视觉Transformer,有效解决糖尿病视网膜病变(DR)检测中分割不精准、噪声干扰和泛化能力不足的问题。在MESSIDOR数据集上实现99.58%的准确率,敏感性98.87%,特异性98.88%,显著优于现有方法,为自动化云诊断系统提供可靠方案。

  
糖尿病视网膜病变(DR)的早期检测对预防不可逆视力损伤至关重要。当前计算机辅助诊断技术普遍存在图像分割精度不足、噪声干扰明显、跨数据集泛化能力弱等问题。本研究提出 Conv-ViT 混合模型,通过优化预处理、智能分割和高效分类三阶段流程,显著提升 DR 诊断准确性与临床适用性。该模型在 MESSIDOR 数据集上取得 99.58% 的分类精度,F1 值达 98.85%,较现有方法提升约 3-5 个百分点,且推理时间控制在 5.67 毫秒/张,满足实时筛查需求。

### 核心技术创新点
1. **多模态预处理体系**
首次引入基于概率的粒子群优化(PBPSO)算法进行智能降噪。传统中值滤波虽能有效去除椒盐噪声,但过度平滑会导致血管结构模糊(实验显示未使用降噪模块时,图像细节损失达 18%)。通过 PBPSO 算法动态调整滤波核尺寸(3×3 至 5×5 自适应切换),在保证 99.5% 准确率前提下,使 PSNR 值提升至 45.215 dB,较传统方法提高 8.5%。

2. **双流特征融合架构**
创新性结合卷积神经网络(CNN)与视觉Transformer(ViT)的混合特征提取。CNN 模块(如 3×3 空间卷积)负责捕捉局部纹理特征(如微动脉瘤的边缘形态),Transformer 模块(采用 6×6 自注意力机制)则通过全局交互分析异常区域的空间分布规律。实验表明,该双流架构使模型对新生血管的识别灵敏度提升至 98.87%,较单一网络模型提高 4.3%。

3. **动态优化算法矩阵**
开发 Electric Fish Optimization Arithmetic Algorithm(EFAOA),融合电鱼群体智能(EFO)与算术优化算法(AOA)。该算法采用概率型信息素扩散策略,在 12,000 代进化过程中实现参数动态调整,较传统 PSO 算法收敛速度提升 40%。具体表现为:当特征维度从 59 扩展至 128 时,EFAOA 仅增加 8% 计算量,而 PSO 需要额外 35% 训练时间。

### 实验验证与性能对比
基于 MESSIDOR 和 ODIR 两大权威数据集(包含 5 类 DR 阶段:正常、轻度、中度、重度及高血压视网膜病变),模型在以下关键指标上表现优异:
- **分类精度**:99.58%(EFAOA 优化后),较次优模型(98.9%)提升 0.68%
- **特异性**:98.88%(较传统方法提高 1.2-3.5%)
- **召回率**:98.87%(微动脉瘤检测准确率达 99.2%)
- **推理速度**:5.67 毫秒/张(NVIDIA RTX 4090 硬件)

对比实验显示,当移除中值滤波环节时,模型精度骤降至 97.5%;若删除 ViT 全局注意力模块,F1 值从 98.85% 降至 96.8%。值得注意的是,该模型在 10% 随机截断测试集(含 15,832 张图像)中仍保持 99.3% 的稳定准确率,验证其跨数据集泛化能力。

### 临床应用价值
1. **诊断效率提升**
通过将图像预处理时间压缩至 1.8 毫秒/张,智能分割阶段仅需 3.9 毫秒/张,使完整诊断流程较传统方法(平均 12.7 秒/张)缩短 98.4%,特别适用于基层医疗机构设备。

2. **多尺度特征解析**
LBP 特征提取模块通过 59 维局部二值模式特征(每帧 1×59 矩阵),成功捕捉视网膜血管的周期性结构特征。结合 ViT 的 6×6 采样窗口(对应 78×78 像素图像),可同时分析 169×169 的局部区域与全局分布,有效解决新生血管与黄斑区的形态重叠问题。

3. **可解释性增强**
引入注意力可视化模块(通过 Grad-CAM 技术定位关键特征区域),使临床医生能直观理解模型诊断依据。实验数据显示,注意力权重分布与专家标注的血管形态一致性达 0.92(Dice 系数),显著优于纯数据驱动模型。

### 技术局限性与发展方向
当前模型主要面临两个挑战:① 对高分辨率(>2000×2000 像素)图像的实时处理能力受限;② 缺乏多中心临床验证数据。后续研究计划:
- 开发轻量化版本(模型体积压缩 60%)
- 引入光学相干断层扫描(OCT)多模态数据融合
- 构建联邦学习框架(保护患者隐私前提下跨机构验证)

该研究为 DR 早期筛查提供了可扩展的技术方案,其模块化设计允许在保持 99%+ 准确率前提下,灵活裁剪预处理或分类阶段,适配不同硬件环境。特别是通过 PBPSO 分割算法实现 91.05% 的 Jaccard 系数,较传统方法(最高 89.64%)提升 1.41%,为微血管异常检测提供了新的技术路径。

### 总结
Conv-ViT 模型通过三个核心创新构建了完整的 DR 诊断链条:基于概率的智能降噪(降噪后 PSNR 提升至 45.2 dB)、多尺度特征融合(CNN+ViT 混合架构)、动态优化算法(EFAOA)。其实验数据表明,该模型在保持 99.58% 准确率的同时,将临床筛查效率提升至 5.67 毫秒/张,为自动化云诊断系统提供了可落地的解决方案。未来通过引入轻量化注意力机制与联邦学习框架,有望在基层医疗场景实现更大范围的推广。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号