基于多尺度注意力Swin Transformer的医学图像分割模型研究

《Scientific Reports》:A multi-scale attention-based Swin transformer model for medical images segmentation

【字体: 时间:2025年11月07日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对医学图像分割中网络参数量大、计算成本高且精度不足的问题,提出了一种基于Swin Transformer的Swin-AttnSeg架构。该模型通过动态特征融合块(DFFB)提取多尺度特征,利用动态注意力增强块(DAEB)结合通道与空间注意力机制聚焦关键区域,并在解码器采用深度可分离卷积(DSC)降低计算复杂度。在PH2、GlaS和Kvasir-SEG数据集上的实验表明,其平均交并比(mIoU)最高达0.9174,Dice分数最高达0.9569,显著优于现有方法,为临床精准诊断提供了轻量化且高效的新工具。

  
在当今的医疗诊断中,医学图像分割扮演着越来越重要的角色。无论是皮肤镜图像中精准勾勒黑色素瘤的边界,还是病理切片上识别肠道腺体的形态,亦或是内镜下捕捉息肉的轮廓,准确的分割结果都是医生进行疾病诊断、制定治疗方案和评估预后的关键依据。然而,传统的医学图像分割方法往往高度依赖医生的经验和肉眼判断,这个过程不仅耗时费力,还容易因主观因素导致误判。随着人工智能技术的飞速发展,基于深度学习的自动分割模型为这一领域带来了新的希望,但现有的卷积神经网络(CNN)常常面临参数量庞大、计算复杂度高,以及在处理复杂医学图像时精度不足的困境。特别是在面对病变区域大小不一、边界模糊、与正常组织对比度低等挑战时,许多模型的性能会大打折扣。
为了解决这些难题,来自伊朗伊斯兰阿扎德大学马什哈德分校的Benyamin Mirab Golkhatmi、Mahboobeh Houshmand和Seyyed Abed Hosseini研究团队在《Scientific Reports》上发表了一项创新性研究。他们开发了一种名为Swin-AttnSeg的新型模型,巧妙地将先进的Swin Transformer (ST) 架构与专门设计的动态特征融合块(Dynamic Feature Fusion Block, DFFB)和动态注意力增强块(Dynamic Attention Enhancement Block, DAEB)相结合,旨在实现高精度与低计算成本之间的最佳平衡。
研究人员开展这项研究的核心目标是设计一个优化的医学图像分割架构,在保持高精度的同时,减少网络参数并最小化计算开销。他们选择Swin Transformer作为编码器,利用其独特的滑动窗口和自注意力机制来更准确地提取图像的关键特征,并捕获长距离依赖关系。为了弥补Transformer在捕捉局部细节(如边缘和纹理)方面的潜在不足,团队设计了基于卷积操作的DFFB模块。该模块通过并行使用标准卷积和具有不同膨胀率(3, 5, 7)的膨胀卷积,从多个尺度提取特征,从而增强了模型对复杂医学图像中细微结构的感知能力。此外,他们还引入了DAEB模块,该模块依次应用通道注意力(Channel Attention, CA)和空间注意力(Spatial Attention, SA),使模型能够聚焦于图像中的关键区域,如皮肤病变的轮廓、腺体边界或息肉边缘。在解码器部分,模型采用了深度可分离卷积(Depthwise Separable Convolutions, DSCs),这种技术将标准卷积分解为深度卷积和逐点卷积两步,显著减少了模型的参数数量和计算量(以GFLOPs衡量),而不会明显牺牲分割精度。
为了验证模型的有效性,研究团队在三个公开的医学图像数据集上进行了全面评估:用于皮肤病变分割的PH2数据集(包含200张图像),用于组织病理学腺体分割的GlaS数据集(165张图像),以及用于结直肠息肉分割的Kvasir-SEG数据集(1000张图像)。所有图像均被调整至256x256像素的分辨率,并采用了旋转、裁剪、镜像和添加高斯噪声等数据增强技术来提升模型的鲁棒性。
关键技术方法概述
本研究构建的Swin-AttnSeg模型核心采用Swin Transformer (ST)作为编码器进行深度特征提取。模型设计了动态特征融合块(DFFB),利用多路径并行卷积(包括不同膨胀率的膨胀卷积)融合多尺度特征,并引入上下文感知门控机制自适应融合残差路径。同时,设计了动态注意力增强块(DAEB),结合可训练的广义均值池化(GeM)进行通道注意力计算,并采用多尺度卷积核(3x3, 5x5, 7x7)进行空间注意力提取。解码器使用深度可分离卷积(DSC)以减少参数量和计算复杂度。模型采用结合二进制交叉熵(BCE)和交并比(IoU)的混合损失函数进行优化,并在PH2、GlaS和Kvasir-SEG三个医学图像数据集上进行了训练和评估。
模型架构与性能表现
Swin Transformer (ST) 编码器架构
研究采用Swin Transformer作为特征提取的核心。与传统的基于卷积神经网络(CNN)的编码器相比,ST通过自注意力机制能够更好地捕获图像中的长距离依赖和全局上下文信息。该模型的初始嵌入通道数设置为48,并在网络的四个阶段中依次翻倍(48→96→192→384),形成分层结构。这种设计使得模型能够先以较少的通道处理局部信息,然后在更高层级通过增加通道数来提取更抽象和全局的特征。ST使用滑动窗口机制(如8x8和16x16的窗口大小)进行计算,这种机制将全局自注意力的二次复杂度降低为与图像大小呈线性关系,从而在保证特征提取能力的同时,显著提高了计算效率,使其更适合处理高分辨率的医学图像。
动态特征融合块(DFFB)的设计
为了增强模型提取多尺度特征的能力,特别是弥补ST在局部细节捕捉上的潜在不足,研究人员设计了动态特征融合块(DFFB)。其结构包含一个中心路径和三个并行的多尺度特征提取路径。
中心路径通过一个1x1卷积层处理主要特征,为与多尺度特征的集成做准备。三个并行路径则分别使用膨胀率为3、5和7的膨胀卷积,旨在扩大感受野而不增加参数数量或损失分辨率。每条路径首先通过1x1卷积降低维度,然后使用3x3分组卷积(组数为2)增强局部特征表征,最后应用膨胀卷积来提取不同尺度上的纹理特征。
DFFB的一个关键创新是引入了上下文感知门控机制。该机制首先对多分支卷积块的输出进行全局平均池化(GAP)以获取全局语义上下文信息,然后通过一个包含两个全连接层和ReLU激活函数的子网络生成一个门控向量G(取值在0到1之间)。最终的输出是原始输入特征经过1x1卷积投影后的残差特征与DFFB提取的变换特征根据门控向量G进行加权融合的结果。这种自适应融合方式使网络能够根据全局上下文信息,动态地平衡新提取的特征和原始输入的影响,从而增强了特征选择性和信息流的灵活性。
动态注意力增强块(DAEB)的设计
受到卷积块注意力模块(CBAM)的启发,研究团队设计了动态注意力增强块(DAEB)来进一步提升对关键特征的关注。DAEB依次执行通道注意力(CA)和空间注意力(SA)。
在CA部分,DAEB没有采用CBAM中简单的全局平均池化(GAP),而是使用了可训练的广义均值池化(GeM)。该方法通过一个可学习的参数p(初始化为2)来控制池化行为,使其能够在平均池化(p=1)和最大池化(p→∞)之间取得平衡,从而在强调显著特征的同时不丢失细微信息。池化后的特征经过一个瓶颈结构(包含两个1x1卷积层和ReLU激活函数)来建模通道间的依赖关系,最后通过Sigmoid函数生成通道注意力权重。
在SA部分,DAEB首先通过对输入特征分别进行通道维度的平均池化和最大池化,得到两个二维特征图,并将它们拼接起来。接着,与CBAM使用单一7x7卷积核不同,DAEB使用三个并行的卷积核(大小分别为3x3, 5x5, 7x7)来处理拼接后的特征。这种多核策略增强了模型捕获不同尺度空间特征的能力,提高了对病变大小、形状和纹理变化的鲁棒性。三个卷积输出的结果被平均后,再通过Sigmoid函数生成空间注意力权重。
最后,CA和SA生成的注意力图会依次与输入特征相乘,使得模型能够同时关注重要的通道和空间区域。
损失函数与模型优化
本研究采用了一种复合损失函数,结合了二进制交叉熵(Binary Cross-Entropy, BCE)和交并比(Intersection over Union, IoU)损失。BCE损失被赋予0.75的权重,侧重于像素级的学习,对于精确检测医学结构的边界,尤其是在类别不平衡的数据集中识别小而隐蔽的区域至关重要。IoU损失的权重为0.25,它引导模型优化预测区域与真实标注之间的重叠度,减少无效的碎片化预测。这种加权组合使模型在保持像素级精度的同时,增强了分割区域的连贯性。最终的组合损失函数计算公式为:L_combined = (w_BCE * L_BCE + w_IoU * L_IoU) / (w_BCE + w_IoU)。
在PH2皮肤病变数据集上的结果
在PH2数据集上,Swin-AttnSeg模型展现出了卓越的性能。其Dice分数达到了0.9569,平均交并比(mIoU)为0.9174,准确率为0.9762,特异性为0.9848。这些指标均显著优于参与对比的其他模型,如MSGAT(Dice: 0.9336, mIoU: 0.8920)、PraNet(Dice: 0.9262, mIoU: 0.8711)和CaraNet(Dice: 0.9229, mIoU: 0.8708)。高Dice分数和mIoU表明该模型预测的分割区域与真实标注之间具有高度的重叠性,能够准确地覆盖皮肤病变区域并最大限度地减少无关区域的纳入。极高的特异性说明模型能够非常准确地将健康皮肤区域识别为非病变区域,有效降低了假阳性率。消融实验表明,动态特征融合块(DFFB)对性能提升的贡献最大,而较大的注意力窗口(ST16)在此数据集上表现更优。
在GlaS组织病理学腺体数据集上的结果
在用于腺体分割的GlaS数据集上,Swin-AttnSeg模型同样取得了最佳成绩,Dice分数为0.9542,mIoU为0.9125,准确率为0.9584,召回率为0.9467,特异性为0.9627。与DAUNet、PraNet、CENet等模型相比,其优势明显。值得注意的是,在此数据集上,消融研究显示使用较小注意力窗口的ST8模型与DFFB结合时表现更好,这表明对于需要精细捕捉腺体复杂边界的组织病理学图像,更局部的注意力可能更有效。DFFB的多尺度处理能力再次被证明是提升腺体分割精度的关键因素。
在Kvasir-SEG息肉分割数据集上的结果
在Kvasir-SEG内镜息肉分割数据集上,Swin-AttnSeg模型的Dice分数为0.9521,mIoU为0.9085,准确率为0.9855,特异性高达0.9941。其性能超过了PraNet、CENet、Transfuse以及表现较好的MSGAT(Dice: 0.9320, mIoU: 0.8910)等模型。高达0.9941的特异性表明该模型在区分息肉和正常肠道背景方面极其精准,能够最大限度地减少将健康组织误判为息肉的情况,这对于临床避免不必要的干预至关重要。在此数据集上,ST16与DFFB和DAEB的组合取得了最优效果。
模型效率与消融分析
在模型效率方面,Swin-AttnSeg仅包含12.78百万个参数,计算量为12.35 GFLOPs。与AttUNet(57.16M参数, 103.61 GFLOPs)、PraNet(30.50M参数, 13.15 GFLOPs)等模型相比,其参数量和计算复杂度显著降低,体现了其轻量化的优势,更有利于在资源受限的临床环境中部署。
广泛的消融实验系统地评估了各个组件的贡献。结果表明,DFFB是提升模型性能的最关键模块,其多尺度特征融合能力对三个数据集的分割精度都有大幅提高。DAEB模块也带来了稳定的性能增益,其改进的注意力机制(特别是广义均值池化和多核空间注意力)被证明优于标准的CBAM模块。此外,DFFB中的上下文感知门控机制也被证实有助于稳定训练和提升最终性能。统计分析(配对t检验)显示,Swin-AttnSeg模型在三个数据集上相对于表现次优的MSGAT模型,其性能提升具有统计学显著性(p值 < 0.05)。
结论与展望
本研究成功提出并验证了Swin-AttnSeg这一新型医学图像分割模型。通过整合Swin Transformer的全局上下文建模能力、动态特征融合块(DFFB)的多尺度特征提取能力、动态注意力增强块(DAEB)的精准区域聚焦能力,以及深度可分离卷积(DSC)的高效解码机制,该模型在皮肤病变、组织病理学腺体和结直肠息肉分割任务上均达到了领先水平。其在保持高精度(高Dice分数和mIoU)的同时,显著降低了模型复杂度和计算成本,为解决医学图像分割领域长期存在的精度与效率难以兼顾的难题提供了有效的方案。
该研究的成果具有重要的临床意义。精准的医学图像分割有助于医生更早地发现疾病、更准确地评估病变范围和性质,从而制定更个性化的治疗方案,最终改善患者的治疗效果。Swin-AttnSeg模型的轻量化特性使其有望集成到移动或边缘计算设备中,为远程医疗和基层医疗机构提供强大的辅助诊断工具。研究人员在文中指出,未来的工作包括将模型实际部署到边缘设备(如安卓平台)上进行延迟基准测试,以进一步验证其在实际临床应用中的可行性。这项研究为开发高效、精准且易于部署的医学人工智能工具迈出了坚实的一步。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号