《Biomedical Signal Processing and Control》:Dynamic fluorescence molecular tomography via attention-incorporated spatio-temporal graph convolutional neural network
编辑推荐:
针对近视性脉络膜病变分类的挑战,提出FreqMIM-Net框架,结合知识蒸馏与高频信息重建,分两阶段实现自监督特征学习与下游分类,实验证明其效果优于主流自监督模型及近期视网膜基础模型。
Zelin Yu|Ying Fan|Weixin Ding|Siheng Zhou|Fei Shi|Xinjian Chen|Dehui Xiang|Tao Peng|Weifang Zhu
中国江苏苏州大学电子与信息工程学院MIPAV实验室
摘要
近视性黄斑病变(MM)是高度近视的主要并发症,也是导致不可逆视力丧失的主要原因。因此,对MM进行自动化分类在临床中具有重要意义,有助于实现精准治疗并防止病情进一步恶化。我们提出了一种基于自监督学习的框架FreqMIM-Net,该框架利用基于掩膜图像建模的高频信息重建技术进行MM分类。该框架包括两个阶段:自监督特征表示学习和下游分类。在第一阶段,采用掩膜自编码器作为基线,并引入知识蒸馏机制,指导学生模型从教师模型中学习强大的特征提取能力。为了更好地利用细粒度结构信息,以高频成分作为重建目标。在下游分类阶段,使用中心损失函数来增强学习到的表示的区分能力。评估使用了四个公共眼底图像数据集:EyePACS、MMAC、PALM和HPMI,其中EyePACS用于预训练,其余数据集用于分类。实验结果表明,FreqMIM-Net在相同协议下训练时,其性能始终优于其他主流自监督学习基线,并且在无需大规模特定领域视网膜预训练的情况下,也能与最新的视网膜基础模型相媲美。
引言
近视是全球最常见的眼部疾病之一,其发病率在许多国家都在增加,给社会带来了巨大的公共卫生负担和成本。据估计,到2050年,全球将有约47.6亿人患有近视,其中高度近视患者接近9.38亿人[1]、[2]。近视性黄斑病变(MM)是与高度近视相关的重要眼底并发症,是高度近视患者视力不可逆损害的主要原因[3]、[4]、[5]、[6]、[7]、[8]。近视会导致眼球轴长增加以及脉络膜变薄,从而引发眼底镶嵌样改变和脉络膜视网膜萎缩。脉络膜视网膜萎缩最初表现为弥漫性病变,随着病情加重,可能发展为斑片状病变甚至黄斑萎缩[9]。近视的典型表现包括眼底镶嵌样改变、脉络膜视网膜萎缩等,这些变化在眼底图像中可以清晰地观察到。Ohno-Matsui等人[10]提出了一个基于临床症状的近视性黄斑病变分类和分级系统META-PM,将MM分为五个等级:无近视性视网膜退行性病变(A0)、眼底镶嵌样改变(A1)、弥漫性脉络膜视网膜萎缩(A2)、斑片状脉络膜视网膜萎缩(A3)和黄斑萎缩(A4)。图1展示了这五个等级的近视性黄斑病变眼底图像。
近视性黄斑病变的进展在不同等级间存在差异,通常在眼底镶嵌样改变后进展迅速。及时分类和干预对于减缓病情进展和保护视力至关重要。目前临床对近视性黄斑病变的分类主要依赖于眼科医生的专业知识,这既耗时又高度依赖经验。因此,开发自动分类方法具有重要的临床意义。尽管深度学习取得了进展,但在实际应用中,近视性黄斑病变的自动分类仍然具有挑战性。首先,MM的各个等级由细微且局部的视网膜变化区分,例如镶嵌样纹理和不同形态的萎缩性病变,这要求模型能够捕捉到细粒度的结构特征。其次,获取大规模的专家标注数据既昂贵又耗时。现有的标记MM相关数据集往往规模较小且来自多个中心,导致不同成像设备和采集条件下的领域差异不可忽视。
视觉变换器(ViTs)[11]、[12]、[13]在特征表示学习方面表现出色,但它们的性能通常依赖于大规模的标注训练数据,而在许多医疗场景(包括MM分类)中这很难满足。自监督学习(SSL)是一种可以从无标签图像中学习特征表示的方法。掩膜图像建模(MIM)是SSL的一种成功范式,源自自然语言处理中的掩膜语言建模。掩膜自编码器(MAE)[14]是MIM中的重要方法,通过掩盖和重建图像的某些区域来训练模型进行特征表示。预训练的编码器随后会被提取并在多个下游任务上进行微调,从而实现卓越的性能。
许多基于MAE的SSL技术已应用于医学图像处理领域,在包括计算机断层扫描(CT)、磁共振成像(MRI)等多种图像模态的多个基准数据集上取得了良好的性能[15]、[16]、[17]、[18]。在眼科领域,最近的视网膜基础模型如RETFound[19]和VisionFM[20]通过在大规模眼科数据上预训练ViT编码器,进一步推动了该领域的发展,并显示出对广泛下游任务的强泛化能力。尽管MAE在许多下游任务(包括医学图像分类和分割)中表现出高效,但仍存在以下问题:(1)由于医学图像与自然图像的特征差异显著,用自然图像预训练的MAE不适合直接应用于医学图像处理;(2)隐私政策通常限制了医学图像数据库的大小;(3)如果使用原始像素作为MAE中的重建目标,模型需要准确重建掩膜区域,但这可能导致信息冗余和高级语义特征捕获不足。此外,在医学图像(如眼底图像)中捕获病变(如脉络膜萎缩)的局部信息对于疾病诊断至关重要。
因此,为了在训练样本有限的情况下最大化基于MIM的医学图像分类技术的效果,同时保留详细的局部特征,捕获全局信息成为关键。在这项工作中,我们提出了一个基于知识蒸馏和频域信息重建的两阶段框架FreqMIM-Net,用于自动识别近视性黄斑病变,包括自监督特征表示学习(SSFRL)阶段和下游近视性黄斑病变分类阶段,探索了MIM和频域信息在基于眼底图像的近视性黄斑病变分类中的潜力。在SSFRL阶段,将知识蒸馏策略引入MIM框架,并使用ImageNet预训练的MAE作为教师模型。为了指导学生MAE模型学习有效的特征表示并提高训练效率和模型性能,通过匹配这两个模型的中间特征表示来最小化特征映射之间的距离。以眼底图像的高频成分作为预期的重建目标,引导模型关注图像的细节和边缘信息,然后学习出具有结构感知能力的特征表示。在下游近视性黄斑病变分类任务中,微调过程中引入中心损失函数以增强模型的特征区分能力和泛化能力,进一步提升分类性能。为了评估FreqMIM-Net的性能,使用无标签的公共EyePACS数据集[1]进行基于知识蒸馏和高频信息重建的SSFRL,并在三个公共近视性黄斑病变眼底图像数据集(MMAC[2]、PALM[21]和HPMI[22])上进行了下游分类任务,以评估第一阶段学习到的特征表示。主要贡献总结如下:
(1) 提出了一个用于眼底图像分类的SSL框架FreqMIM-Net,并探索了基于知识蒸馏和频域信息的掩膜图像建模的潜力。
(2) 提出了一个跨域掩膜图像重建框架。通过设计基于中间特征匹配的知识蒸馏和基于高频信息的图像重建策略,提高了模型的特征提取和泛化能力,成功解决了医学图像与自然图像之间的领域差异问题。
(3) 在近视性黄斑病变分类的监督微调中使用了中心损失函数,提高了样本在特征空间中的紧凑性,从而改善了分类性能。
(4) 在三个近视性黄斑病变眼底图像数据集上进行了全面实验,评估了FreqMIM-Net的性能。结果表明,FreqMIM-Net的性能优于其他主流SSL模型,并且与包括ReTFound和VisionFM在内的最新 influential SSL 在眼底图像上的性能相当,同时预训练成本更低。
章节片段
近视性黄斑病变的自动分类
医学图像的自动分类是医学图像处理领域的一个重要方向。近年来,随着深度学习技术的出现,自动医学图像分类算法的发展取得了显著进展。一些基于深度学习的算法已成功应用于糖尿病视网膜病变[23]、[24]、[25]、[26]、[27]、青光眼[28]、[29]、[30]和年龄相关性黄斑病变的检测和分类
概述
图2展示了所提出的FreqMIM-Net的整体架构,包括自监督特征学习SSFRL阶段和下游分类阶段。在SSFRL阶段,采用MAE作为基线,包括两个任务:知识蒸馏学习和掩膜图像重建。在前一个任务中,采用教师-学生模型,并使用ImageNet预训练的MAE(ViT-L)模型作为教师模型。知识蒸馏技术用于优化
实施细节
为了确保公平性,在SSL阶段,所有比较实验中的主流SSL基线都使用ImageNet预训练的基线大小ViT(ViT-B)作为 backbone,并在EyePACS数据集上进行预训练。对于RETFound[19],使用在904,170张眼底图像上预训练的官方发布的ViT-L编码器,其中90.2%的图像来自MEH-MIDAS,9.8%来自EyePACS;对于VisionFM[20],使用在1,010,293张眼底图像上预训练的官方发布的ViT-B编码器。
调整大小后
比较实验
将提出的FreqMIM-Net与主流基于ViT的SSL基线进行了比较,包括MAE[14]、SimMIM[47]、DINO[44]、Moco-v3[60]、Maskfeat[46]、iBOT[45]、CAE[61]和SSiT[27]。此外,我们还纳入了两个在眼科任务中表现出强泛化能力的最新视网膜基础模型RETFound[19]和VisionFM[20]。
如表1、表2、表3所示,FreqMIM-Net在MMAC、PALM等任务上的准确率分别比基线MAE提高了4.39%、1.85%和1.60%
结论
近视性黄斑病变是高度近视患者中常见的眼底并发症,是导致不可逆视力丧失的主要原因。基于眼底图像的近视性黄斑病变的自动化分类和诊断对于早期预防和管理病理性近视具有重要的临床意义。
在这项工作中,我们提出了FreqMIM-Net,这是一个基于频率引导的掩膜图像建模框架,结合了跨域知识蒸馏技术,用于自动识别近视性黄斑病变
CRediT作者贡献声明
Zelin Yu:撰写 – 原稿撰写、软件开发、方法论设计。Ying Fan:资源获取、资金筹措、数据管理。Weixin Ding:撰写 – 审稿与编辑、验证、软件开发。Siheng Zhou:资源获取、数据管理。Fei Shi:监督指导、资源获取、资金筹措。Xinjian Chen:资源获取、资金筹措。Dehui Xiang:监督指导、资金筹措。Tao Peng:资源获取、资金筹措。Weifang Zhu:撰写 – 审稿与编辑、监督指导、资源获取、资金筹措。
资助
本工作部分得到了国家自然科学基金(项目编号:62371326、U20A20170、62271337、62371328)的支持;部分得到了江苏省自然科学基金(项目编号:BK20231310)的支持;部分得到了国家重点研发计划(项目编号:2018YFA0701700)的支持;部分得到了江苏省高等教育机构优先学术发展计划(项目编号:YX11900123)的支持;此外还得到了中国博士后科学基金的支持
利益冲突声明
作者声明他们没有已知的利益冲突或个人关系可能影响本文报告的工作。