GC-SAM:基于知识蒸馏与微调策略的胃癌病理图像轻量化分割模型
【字体:
大
中
小
】
时间:2025年09月26日
来源:Cancer Medicine 3.1
编辑推荐:
本研究提出GC-SAM(Segment Anything Model for Gastric Cancer),一种针对胃癌病理图像分割的轻量化模型。该模型通过知识蒸馏压缩图像编码器(Image Encoder),并结合微调(Fine-tuning)优化提示编码器(Prompt Encoder)与掩码解码器(Mask Decoder),在显著降低参数量(–89.2%)和推理时间(–83.6%)的同时,在内部与外部验证集上分别达到0.8186和0.8350的Dice系数,展现出优异的泛化能力与嵌入式部署潜力。
胃癌是一种具有高度侵袭性的疾病,在全球范围内导致大量癌症相关死亡。人工智能技术对病灶的准确定位有助于及时、高效地进行诊断与治疗。Segment Anything Model(SAM)在多项图像基准测试中表现出卓越性能,展现出在医学图像分割领域的巨大潜力。然而,其资源密集的特性限制了在嵌入式医疗环境中的实际应用。
本研究提出GC-SAM,一种用于肿瘤分割的轻量化模型。其架构创新性地引入知识蒸馏图像编码器、提示编码器和掩码解码器,有效替代了传统固定且计算密集的网络组件。
大量实验表明,GC-SAM显著优于经典分割模型和近期先进网络。在内部测试集上,GC-SAM获得0.8186的Dice系数和0.6504的平均交并比(mIoU),同时推理时间和参数量较原始SAM降低超过80%。在外部数据集上,GC-SAM保持了优异性能(Dice 0.8350),展现出卓越的泛化能力。
所提出的GC-SAM模型在分割胃癌组织方面表现出强大能力,同时显示出在嵌入式医疗成像设备中部署的实际潜力。
胃癌因其高发病率和高死亡率而被认为是全球重大健康问题。其相关检查包括上消化道造影(UGI)、胃镜、计算机断层扫描(CT)、正电子发射断层扫描-CT(PET-CT)、超声内镜(EUS)及病理学检查。其中,病理学诊断被视为胃癌诊断的金标准。然而,病理学家的手动诊断耗时且主观,易受个人经验影响,因此迫切需要探索可提高效率与可靠性的替代方法。
医学图像分割因其在精确、高效识别医学图像中病灶的关键作用,已成为临床应用中突出的研究焦点。近年来,针对不同医学成像任务的自动分割方法取得显著进展。例如,UNet通过跳跃连接保留空间细节;CNN被用于自动化检测内镜图像中的胃癌;SERes与DAGC块被引入以增强高低层语义特征的整合;多尺度输入分割技术被开发以增强组织病理图像中胃癌病灶的检测;nnUNet实现自动参数配置;Swin-Transformer与UNet结合的混合网络用于精准定位病灶;AutoSAM与SAMed针对医学图像对SAM进行定制化适配;Mask R-CNN的改进模型用于早期胃癌的检测与分割;GoogLeNet与ViT结合Faster R-CNN实现内镜图像的多类分类与区域分割;MA-SAM则实现SAM对3D医学图像的分割。
尽管这些模型表现出一定效果,基于深度学习的分割模型仍存在几个固有局限:分割精度尚未达到理想水平;复杂架构与大参数量导致高计算开销与长推理时间,难以部署于资源受限环境;泛化能力有限,在外部数据集上性能下降显著;同时实现低参数量、高精度与强泛化能力的网络仍较为稀缺。因此,迫切需要一种轻量化、高精度且泛化能力强的网络以满足实际应用需求。
为应对这些挑战,我们引入一种基于Segment Anything Model(SAM)的新型胃癌病理图像分割模型,称为GC-SAM。该方法采用轻量化图像编码器有效捕捉肿瘤形态特征,并通过微调提示编码器与掩码解码器提高分割精度。
SAM是一种基于ViT的先进分割模型,已在超过10亿掩码的自然图像数据集上训练,可实现零样本对象分割。其能够通过多种提示(如边界框、点)生成分割掩码,支持像素级语义对象建议与区域级位置对象指示。尽管SAM表现出高适应性,医学图像与自然图像间的显著差异——如低对比度、复杂结构、观察者主观性带来的变异性、多成像模态及不同解剖对象特性——限制了其在医学领域的零样本学习能力。此外,原始SAM的图像编码器基于ViT-h,参数量超过6亿,其高计算需求限制了在资源受限嵌入式医疗设备中的部署。
本研究提出GC-SAM,其结构包含三个主要组件:轻量化图像编码器、提示编码器和掩码解码器。轻量化图像编码器处理输入图像生成特征图;嵌入图像输入经微调的掩码解码器生成分割掩码;提示编码器经微调以有效利用边界框信息。
2.2 Segment Anything Model
SAM包含三个主要模块:图像编码器、提示编码器和掩码解码器。图像编码器结构类似ViT,采用掩码自编码器(MAE)进行自监督预训练,是计算最密集的组件。SAM提供三种图像编码器预训练权重配置:ViT-h、ViT-l和ViT-b。提示编码器负责编码用户输入(如点、边界框等空间线索),掩码解码器轻量化地处理图像嵌入与提示嵌入以生成最终分割结果。
采用MAE的修改版本,处理分辨率达1024×1024的输入图像。
稀疏提示(点、框、文本)通过位置编码与学习嵌入进行编码;点通过两个可学习令牌编码前景与背景信息;边界框依赖左上与右下角坐标;自由形式文本输入使用预训练文本编码器编码;密集掩码提示通过卷积层嵌入后与图像嵌入逐元素求和。
结构计算高效,包含两个Transformer层、动态掩码预测头和交并比(IoU)分数回归头。掩码预测头生成三个下采样4倍的分割掩码,代表整个对象、部分片段及对象内特定子区域的分割。
微调是深度学习领域一种重要的迁移学习技术,旨在利用相关任务中获得的知识提升模型在新任务上的表现,加速神经网络对新数据集的适应并减少重新训练所需计算努力与时间。本研究采用微调策略,冻结图像编码器权重,通过微调提示编码器与掩码解码器增强模型识别胃癌病理切片中未见肿瘤区域的能力。与基于特征提取的迁移学习相比,该方法在提高精度与精确度的同时降低了计算成本。
SAM图像编码器因参数众多需大量内存,限制了其在计算与存储能力有限设备上的部署。知识蒸馏是一种有效的模型压缩技术,通过让学生模型模仿教师模型的输出分布,使其输出分布更接近教师模型的软标签分布,从而学习类别间相对关系、决策边界与置信信息。知识蒸馏不仅实现模型压缩,还提升性能、加速推理并增强模型泛化能力。
设教师模型T通过softmax产生输出,学生模型S通过最小化目标函数进行优化,该函数包含学生预测与真实标签的差异以及学生模型与教师模型软化输出分布间的差异。本研究采用SAM训练策略,使用SAM SA-1B数据集微调教师模型ViT-b,生成更小的学生模型(ViT-s),显著降低模型复杂度与计算资源需求,得到轻量化模型。通过知识蒸馏,学生模型在保留教师模型大部分性能的同时,最小化计算与存储开销,适于在资源受限设备上部署。
本研究胃癌组织病理图像来源于四大人工智能与大数据竞赛。BOT数据集包含560个胃癌数字病理样本;SEED1提供732个精细标记的胃癌数字病理切片样本;SEED2提供1770个样本;TCGA提供60个胃癌组织病理图像。BOT、SEED1与SEED2构成包含2427张图像的内部分割数据集;TCGA作为外部验证数据集,包含60张图像,来源全球多族群患者,采用标准化H&E染色技术于20倍放大下捕获,图像为RGB三通道格式,由中山大学医师精细标注。预处理采用区域重叠裁剪方法,有效减轻边缘效应并扩展数据集,降低过拟合风险。
评估指标采用Dice系数(Dice)、平均交并比(mIoU)和像素精度(Pixel Acc)衡量模型分割结果与真实标注间的相似性。
不同平台获取的图像可能存在颜色偏移。本研究采用颜色校正技术处理,以提高准确性并保持图像间 uniformity。
内部数据集按60%训练、20%验证、20%测试划分。优化目标采用Dice Loss。网络超参数设置包括优化器AdamW、训练轮数50、批量大小16、学习率0.001、权重衰减4×10?6。
GC-SAM较SAM在Dice系数上提升5.9%,mIoU大幅提高79.6%,像素精度提升8.6%达0.7921。推理时间减少83.6%(1.29秒 vs 7.87秒),参数量减少89.2%(10.13M vs 93.73M),突显其在嵌入式医疗设备上部署的可行性。
对比网络分为三类:经典分割网络(FCN、SegNet、ContextNet、CGNet、UNet)、先进分割方法(PSPNet、DeepLab系列、nnUNet)及基于SAM的模型与变体(AutoSAM、SAMed、MA-SAM)。GC-SAM在Dice上达到0.8186,超越DeepLabV3+(0.7796)与nnUNet(0.7705);参数量仅10.13M,较DeepLabV3+(58.75M)与MA-SAM(115.27M)减少约5至11倍;像素精度0.7912,优于所有对比方法。表明GC-SAM不仅在分割精度上优于顶尖经典与基于SAM的模型,还在效率上显著提升,支持实时图像分析应用。
在未参与训练的外部TCGA数据集上,GC-SAM表现出色,Dice系数达0.835,显著超越其他模型;mIoU与像素精度(0.8210)亦表现优异,展示其在复杂图像分割任务中的强大能力与卓越泛化性能。
GC-SAM较传统CNN模型(如FCN、UNet)更能捕捉胃癌组织的不规则复杂结构,这归功于其继承自SAM的高容量图像编码器。同时,其在内外部数据集上超越DeepLabV3+、nnUNet与PSPNet等先进模型,显示强大泛化能力。
现有研究多对SAM进行部分微调或保持高计算复杂度。GC-SAM联合微调提示编码器与掩码解码器,并结合知识蒸馏压缩图像编码器,在实现最佳分割性能的同时将模型大小显著降至10.13M。
本研究主要关注胃癌组织病理图像,GC-SAM对其他病理类型与癌症种类的适应性需进一步验证。当前提示策略主要依赖图像区域输入,未充分利用多模态信息。未来工作将探索整合自然语言描述或结构化文本提示,以实现更丰富的多模态交互。
本研究提出GC-SAM,一种专为胃癌分割设计的轻量化分割网络。其通过改进编码器与解码器组件,有效替代传统计算密集型网络组件。与三类代表性分割模型(经典网络、先进方法、SAM变体)的全面比较显示,GC-SAM在精度、效率与泛化能力上均表现卓越:精度上Dice系数领先,模型紧凑且计算开销低;效率上参数量与处理速度分别降低89.2%与83.6%;泛化上外部验证实验证明其稳健性。总之,GC-SAM为胃癌分割提供了一种精确高效的解决方案,为深度学习模型在嵌入式医疗设备中的部署提供了有希望的途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号