基于FlexiVarViT架构的高分辨率OCT图像多病种筛查:提升深度学习模型在视网膜疾病诊断中的鲁棒性与泛化能力

【字体: 时间:2025年10月10日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对视网膜疾病筛查中AI模型泛化性不足的临床挑战,开发了FlexiVarViT深度学习架构。该模型通过原生分辨率处理OCT图像、动态调整patch大小和VLFAT特征聚合技术,在法、俄、伊三国多中心数据集上实现了AMD、DME、VID等多病种的高精度分类(平均AUC达0.963),为跨设备、跨人群的临床部署提供了可靠解决方案。

  
在全球视觉健康领域,视网膜疾病是导致不可逆性视力丧失的主要因素之一。据世界卫生组织2023年数据显示,全球22亿人存在视力问题,其中近10亿人可通过早期准确诊断避免视力损失。然而医疗资源分布不均导致许多地区难以及时获得专业诊断。人工智能虽在视网膜疾病筛查中展现出巨大潜力,但现有模型严重依赖开发数据集,在外部验证时出现性能显著下降,限制了其临床适用性。
光学相干断层扫描(OCT)作为重要的视网膜成像技术,能提供高分辨率的视网膜层状结构和三维重建信息,为疾病筛查提供更全面的依据。但OCT影像存在数据可变性(如切片数量、分辨率差异)、多病种共存等复杂特性,给深度学习模型带来巨大挑战。现有方法多局限于单病种检测,无法应对临床常见的多病理共存场景;且多数模型需将图像调整为固定尺寸,导致高分辨率细节丢失。
为解决这些问题,Philippe Zhang等研究人员在《Scientific Reports》发表了题为"A robust deep learning classifier for screening multiple retinal diseases on optical coherence tomography"的研究论文。他们开发了新型深度学习架构FlexiVarViT,能够处理可变分辨率的OCT图像而无需调整大小,保留精细解剖细节,显著提升了模型在多样化和真实临床环境中的性能。
研究团队采用多中心验证策略,使用来自法国、俄罗斯和伊朗的三个独立数据集(OCTBrest、OCTDL、NEH),涵盖不同成像设备(Heidelberg Spectralis和Optovue)和人群特征。关键技术方法包括:基于FlexiViT的变尺寸patch处理机制、体积级特征聚合Transformer(VLFAT)框架、OCT图像预处理(OCTIP)流程,以及监督式预训练策略(使用Kermany数据集)。研究比较了多重实例学习(MIL)、直接3D分类和VLFAT三种深度学习方法,并系统评估了RETFound、MedNet3D等基础模型的性能。
模型架构设计与优化
FlexiVarViT基于FlexiViT架构,通过动态调整patch大小保持每切片固定数量的patch,确保可训练位置编码的一致性。该架构包含四个核心组件:动态调整的patch嵌入权重、捕获切片空间关系的位置编码(PE)、通过自注意力机制增强特征提取的Transformer块,以及执行最终分类的MLP头。与需要固定输入尺寸的传统方法不同,FlexiVarViT能原生处理高分辨率OCT图像,保留关键诊断信息。
多数据集性能验证
在OCTBrest数据集上的5折交叉验证显示,FlexiVarViT(kermany-p)+VLFAT组合获得最佳性能,平均AUC达0.963。在外部验证集OCTDL(俄罗斯人群,Optovue设备)和NEH(伊朗人群,Spectralis设备)上,该模型同样表现出色,平均AUC分别为0.916和0.996,显著优于其他对比方法。在13个疾病类别中,该模型在11个类别上取得最高AUC值,证明了其卓越的泛化能力。
不同架构对比分析
VLFAT-based模型 consistently 优于MIL和3D-CNN方法。RETFound-MIL方法虽表现稳定(AUC 0.840-0.953),但F1分数和敏感度较低,特别是在OCTDL数据集上F1分数降至约0.491。3D-CNN模型(MedNet3D-R18和R50)表现最弱,在OCTDL上AUC仅0.560-0.570,表明对领域偏移的适应性差。FlexiVarViT在跨域场景中的优势尤其明显,其原生高分辨率处理能力带来显著性能提升。
预训练策略影响
监督式预训练于Kermany数据集带来最大性能增益,在12/13疾病类别上AUC提高,在OCTDL上F1分数提升10%。相比之下,集成RETFound权重的策略收益有限,表明RETFound已提供强健的OCT特征表示。有趣的是,RETFound基础模型在"OTHER"类别上表现最佳(AUC=0.880),显示其在大规模预训练中获得的广泛病理知识。
计算效率评估
FlexiVarViT+VLFAT在计算效率与性能间达到最佳平衡。当前四模型集成策略虽提高了对类别不平衡的鲁棒性,但增加了推理时间和内存使用。未来将优化单一高性能模型以支持实时临床部署。
研究结论与讨论部分强调,该工作首次系统评估了多种深度学习策略在OCT多病种分类中的性能,证实了VLFAT方法相对于MIL和3D-CNN的显著优势。FlexiVarViT架构通过原生分辨率处理和体积级注意力聚合机制,为准确诊断提供了重要技术保障。监督式预训练于高分辨率OCT数据比通用大规模预训练(如RETFound)带来更大增益。
该研究的局限性包括罕见病理代表性不足、未评估外部测试集中的共存病理以及缺乏可解释性分析。未来工作将扩展数据集覆盖更多罕见和共存病理,开发可解释性工具(如识别最关键切片和病灶区域),增强临床信任度。
尽管专为OCT设计,该框架可适配其他3D医学影像模态(如脑MRI、胸部CT),其灵活性和高分辨率处理能力使其成为跨临床影像领域的强候选方案。这项研究突出了模型设计与医学影像特性匹配的重要性,为开发可扩展、可解释且临床适用的AI工具奠定了坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号