编辑推荐:
为解决卷积神经网络(CNNs)难以捕捉长距离依赖、Transformer 模型计算开销大的问题,研究人员开展 VMKLA-UNet 模型用于医学图像分割的研究。结果显示该模型在多数据集上分割精度高、鲁棒性强,为医学图像分割提供了有效方案。
在医学领域,医学图像分割是疾病诊断、治疗规划等环节的关键技术。随着成像技术进步,医学数据量呈指数级增长,对分割技术的要求也越来越高。深度学习的出现,为医学图像分割带来了重大突破,其中编码器 - 解码器架构广泛应用,U - Net 更是成为经典框架。然而,基于卷积神经网络(CNNs)的模型受限于局部感受野,难以捕捉长距离信息,影响特征提取和分割质量;基于 Transformer 的模型虽在全局建模上表现出色,但自注意力机制的二次复杂度导致计算成本高昂,在医学图像分割这类密集预测任务中应用受限。这些问题促使研究人员探索新的架构,以有效捕捉长距离信息并保持线性计算复杂度。
中国西华师范大学、攀枝花学院等机构的研究人员开展了相关研究,提出了一种新型医学图像分割模型 VMKLA - UNet(Vision Mamba with KAN Linear Attention UNet)。该研究成果发表在《Scientific Reports》上,为医学图像分割领域带来了新的解决方案,具有重要意义。
研究人员在这项研究中用到了以下几个主要关键的技术方法:采用基于视觉状态空间模型(VMamba)的编码器结构,通过双向状态空间模型和位置嵌入进行全局视觉上下文建模与特征提取;设计独特的解码器结构 MKCSA,结合 KAN 线性注意力机制和通道 - 空间注意力机制,提高特征表示能力和分割性能;利用五个公开数据集(包括皮肤疾病数据集 ISIC2017、ISIC2018、PH2 ,结肠息肉数据集 Kvasir - SEG、ClinicDB、ColonDB、ETIS,以及 3D 医学图像数据集 Synapse)进行实验验证。
研究结果
- 模型架构设计:VMKLA - UNet 模型基于 U - Shape 结构,编码器采用 VMamba 结构,能在编码阶段选择性聚焦输入数据关键特征,有效提取和表示图像关键信息,尤其在处理复杂医学图像时,可更好捕捉细微结构差异。解码器设计了 MKCSA 结构,引入 KAN 线性注意力机制替代传统的状态空间模型(SSM),降低计算复杂度的同时,提高全局特征整合能力和模型在不同数据集上的泛化性;结合通道 - 空间注意力机制,进一步增强模型在复杂区域分割物体的能力。
- 实验数据集及设置:研究使用了多个公开数据集进行实验,包括皮肤疾病数据集(ISIC2017、ISIC2018、PH2 )、结肠息肉数据集(Kvasir - SEG、ClinicDB、ColonDB、ETIS)和 3D 医学图像数据集 Synapse。对所有数据集进行图像分辨率调整(至 256×256),并采用随机翻转、旋转、中心裁剪等数据增强方法。实验设置中,批处理大小设为 32,使用 AdamW 优化器,初始学习率为 0.0001,采用 CosineAnnealingLR 学习调度策略,最大迭代次数为 50,整个训练过程设为 300 轮。
- 实验结果分析:将 VMKLA - UNet 与一些当前最优(SOTA)模型对比,在多个数据集上展现出显著优势。在 ISIC17 和 ISIC18 数据集上,VMKLA - UNet 的平均交并比(mIoU)分别达到 84.51% 和 84.16%,Dice 系数分别为 91.60% 和 91.40%,准确率(Acc)分别为 97.39% 和 96.14%,特异性(Spe)和敏感性(Sen)也有显著提升。在PH2 数据集上,Dice 系数、Acc 和 Spe 均有所提高。在结肠息肉数据集(Kvasir - SEG、ClinicDB、ColonDB、ETIS)上,模型在检测息肉区域时表现出高完整性和高精度,即使息肉边界不清晰或不规则。在 Synapse 数据集上,模型的总 mDice 显著增加,对八个腹部器官中的六个实现了更高的分割精度。通过对比 SS2D 和 KAN 线性注意力机制生成的热图发现,KAN 线性注意力对病变区域的理解更全面,边缘描绘更清晰完整,热点分布更集中且贴合实际目标区域。
- 消融实验:对 ISIC17、ISIC18 和结肠息肉数据集进行消融实验,以 VM - UNet 为基线模型。实验结果表明,将 SS2D 块替换为 KAN 线性注意力(MKLA)、添加空间和通道注意力(Only - CSA)、将 SS2D 替换为普通线性注意力模块(MLLA)并添加通道和空间注意力(MLCSA)等操作,均能提升模型性能,证明了新组件对提高模型性能的关键作用,以及模型编码器在更深网络结构中学习抽象和高级特征的能力。
研究结论和讨论
研究人员提出的 VMKLA - UNet 模型,创新性地将 KAN 线性注意力与通道 - 空间注意力以及 Vision Mamba 架构相结合。经多个公开数据集实验验证,该模型在医学图像分割任务中表现卓越,分割精度高、鲁棒性强,为医学图像分割提供了更有效的解决方案。不过,该模型仍有改进空间,如减少模型参数、加入专门的边缘特征处理模块、进一步优化编码器等。未来研究可从探索更适合医学图像分割的基于 SSM 的结构、深入研究 Mamba 和 KAN 的结合以开发更轻量级模型、利用 Mamba 结构优势探索医学成像下游任务等方向展开,有望创建可扩展、可共享的统一多任务模型,推动医学图像分割领域的进一步发展。