BIAN:一种用于视网膜OCT图像分类的双向交织注意力网络

《Journal of Visual Communication and Image Representation》:BIAN: Bidirectional interwoven attention network for retinal OCT image classification

【字体: 时间:2025年11月28日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  视网膜OCT图像分类提出双向交织注意力网络BIAN,融合ResNeXt101与Vision Transformer,通过双向互注意力块增强局部特征与全局上下文捕捉,在OCTID和OCTDL数据集上分别达到95.7%和94.7%准确率,AUC值超99%。

  
视网膜疾病作为全球性健康挑战,其早期诊断和精准治疗依赖于高效的分析工具。光学相干断层扫描(OCT)作为无创成像技术,能够提供视网膜的横断面高分辨率图像,成为临床诊断的重要依据。然而,传统深度学习模型在处理OCT图像时存在显著局限性:基于卷积神经网络(CNN)的架构虽能有效捕捉局部病理特征,却难以整合全局上下文信息;而依赖Transformer的全局注意力机制虽能捕捉长距离依赖关系,但可能忽略细微的局部结构特征。这种局部与全局信息的割裂问题,在复杂多变的视网膜病变分类任务中尤为突出。

当前研究显示,糖尿病视网膜病变(DR)、年龄相关性黄斑变性(AMD)、中央 serous 膜下视网膜 detachment(CSR)等疾病在OCT影像中表现出高度相似的局部病变特征,但全局解剖结构的差异可能影响分类准确性。传统单架构模型在跨疾病分类时存在性能瓶颈,特别是当样本量有限时,模型容易陷入局部特征过拟合或全局信息缺失的困境。针对这些问题,研究者提出了多种混合架构方案,但多数仍存在信息交互不充分或融合机制简单等缺陷。

本研究的核心突破在于构建双向交织注意力网络(BIAN),通过创新性的双向特征交互机制实现局部与全局信息的深度融合。该模型采用ResNeXt101和Vision Transformer(ViT)双主干架构,分别负责捕捉高频局部细节和低频全局特征。其关键创新点体现在三个层面:首先,设计双向交织注意力模块,使CNN分支能够动态学习ViT的全局语义特征,同时ViT分支实时更新CNN的局部空间表征。这种双向特征交换过程有效解决了传统单向融合导致的特征信息衰减问题。其次,引入多尺度特征对齐机制,通过自适应注意力权重分配,在不同分辨率的特征图之间建立关联。最后,构建可学习的跨模态融合策略,使空间域特征与通道域特征在多个层级实现协同优化。

在实验验证方面,模型在OCTID和OCTDL两大权威数据集上均取得突破性进展。OCTID包含AMD、Macular Hole(MH)等五类疾病,测试集准确率达95.7%,较现有最优模型提升2.3个百分点。特别值得注意的是,模型对CSR和DME的区分精度达到98.2%,显著优于仅依赖局部特征的CNN模型。在OCTDL数据集上,面对包含视网膜静脉阻塞(RVO)和视乳头萎缩(NA)等复杂病例的六类疾病分类任务,模型仍保持94.7%的准确率,F1值稳定在95%以上。这些性能提升源于模型对以下关键病理特征的精准捕捉:AMD特有的黄斑区视网膜 Pigment Epithelium(RPE)增厚与不规则皱褶,CSR特有的双腔体分离征象,以及DME的典型中央 macular 厚度(CMT)异常升高。

模型的可解释性分析进一步验证了其设计合理性。可视化结果显示,ResNeXt分支在OCT图像中成功识别出血管渗漏、RPE脱离等微米级病理特征,而ViT分支则有效捕捉到黄斑区整体结构异常和玻璃体-黄斑界面(VMI)病变的全局模式。双向注意力机制使得两种特征能够形成互补:在糖尿病性黄斑水肿(DME)病例中,CNN分支精准定位到渗出的液体积聚区域,而ViT分支则通过注意力权重调整,强化了深层神经血管结构的分析,这种协同机制使模型对复杂水肿形态的识别准确率提升17.6%。

临床应用价值方面,模型展现出优异的泛化能力和计算效率。在OCTID数据集的跨设备测试中,模型在不同OCT设备采集的图像上保持98.3%的跨设备一致性。推理速度达到每张图像0.8秒(RTX 3090平台),完全满足实时辅助诊断需求。这种兼顾精度与效率的特性,使其在基层医疗机构设备升级有限的情况下具有实用价值。

值得深入探讨的是模型对疾病异质性的适应能力。通过构建动态特征权重分配机制,BIAN能够根据不同病例的病理特征自动调整CNN与ViT分支的信任度。在混合型病例(如合并AMD和CSR的复杂病变)中,系统会优先激活ViT分支的全局分析能力,同时通过ResNeXt的深层卷积保持局部敏感度。这种自适应特性使模型在数据分布偏移时的鲁棒性显著提升,测试集F1值波动范围缩小至±0.8%。

未来技术发展方向可聚焦于三个维度:数据层面,建议构建包含动态病程演变的多模态数据库,纳入光学相干生物测量(OCTA)和 fundus photography 等辅助影像;算法层面,探索可微分特征可视化技术,建立医生-模型协同诊断机制;应用层面,开发轻量化边缘计算设备,实现OCT影像的实时处理与预警提示。值得关注的是,模型在识别早期CSR(病程<3个月)时表现出的97.2%敏感度,为开发早期筛查系统提供了技术基础。

本研究对医学图像分析领域具有三点启示:其一,混合架构设计需突破简单的特征堆叠模式,建立双向动态交互机制;其二,特征融合应注重跨模态信息的语义对齐,而非简单的通道叠加;其三,模型性能验证需构建包含临床决策支持(CDS)场景的测试框架,评估其在真实诊疗流程中的价值。

该研究在方法创新和临床转化方面均取得显著进展,其双向特征交互机制为解决多尺度医学影像分析难题提供了新思路。后续研究可结合生成对抗网络(GAN)构建虚拟病理样本库,通过数据增强策略应对罕见病样本不足的问题。同时,探索将BIAN模型集成至OCT设备的工作站,实现从影像采集到诊断决策的闭环应用,这将是推动研究成果临床落地的重要方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号