基于移位窗口注意力与跨尺度融合的SwinCLNet:脑肿瘤分割的鲁棒性新框架

《Scientific Reports》:SwinCLNet: a robust framework for brain tumor segmentation via shifted window attention and cross-scale fusion

【字体: 时间:2025年12月13日 来源:Scientific Reports 3.9

编辑推荐:

  本文针对脑肿瘤边界模糊、分割精度要求高的挑战,提出了一种新型分割模型SwinCLNet。该模型创新性地将窗口多头自注意力(W-MSA)、移位窗口多头自注意力(SW-MSA)、跨尺度双融合(CSDF)和残差大核注意力(RLKA)模块集成到3D U-Net架构中。在BraTS2023和2024数据集上的实验表明,该模型将平均Dice分数提升约4.53%,并将HD95距离降低约30.89%,尤其在肿瘤核心(TC)和增强肿瘤(ET)区域表现优异,为临床精准医疗提供了可靠技术支撑。

  
在医学影像分析领域,脑肿瘤分割一直是一项极具挑战性的任务。由于脑肿瘤形态不规则、边界模糊不清,且同时存在水肿、坏死和增强核心等多个亚区,传统分割方法往往难以达到临床所需的精度要求。尽管深度学习技术近年来取得显著突破,但现有模型在处理高分辨率3D医学图像时仍面临诸多局限:感受野有限难以捕捉全局上下文信息、计算复杂度高导致实用性不足、对微小噪声变化缺乏鲁棒性等。这些瓶颈严重制约了脑肿瘤分割技术在临床实践中的广泛应用。
为解决这些难题,韩国研究团队在《Scientific Reports》上发表了题为"SwinCLNet: a robust framework for brain tumor segmentation via shifted window attention and cross-scale fusion"的研究论文。该研究提出了一种新型脑肿瘤分割框架SwinCLNet,通过巧妙融合Transformer的全局建模能力和CNN的局部特征提取优势,实现了脑肿瘤分割性能的显著提升。
研究人员开展这项研究的主要技术创新体现在三个核心模块的设计上。首先是编码器中的窗口注意力机制,交替使用W-MSA和SW-MSA模块,既保证了计算效率,又实现了跨窗口的信息交互。其次是解码器中的CSDF模块,通过跨尺度特征融合显著提升了边界分割精度。最后是跳跃连接中的RLKA模块,利用大核卷积扩展感受野,有效捕获长程空间依赖关系。
在方法学上,研究团队采用了BraTS2023和2024数据集中的多模态MRI数据,包含共计2601例成人胶质瘤病例。数据预处理遵循nnU-Net的自动化流程,包括强度归一化和各向同性重采样。模型评估采用5折交叉验证,以Dice相似系数和HD95作为主要评价指标。损失函数结合了Dice Loss和交叉熵损失,以应对类别不平衡问题。
模型架构设计
SwinCLNet采用基于3D U-Net的五阶段编码器-解码器结构。编码器路径逐步下采样3D体积并提取层次特征,在每个编码阶段通过交替使用W-MSA和SW-MSA模块增强特征表示。W-MSA专注于捕获丰富的局部上下文,而SW-MSA则通过循环移位机制实现跨窗口连接,学习全局上下文。解码器路径通过上采样逐步恢复特征图分辨率,每个解码阶段使用CSDF模块有效融合来自下层和RLKA模块的特征。
注意力机制创新
研究团队在编码器中设计了3D窗口自注意力机制,如图2所示。SW-MSA模块的操作流程包括六个关键步骤:循环移位、窗口划分、特征嵌入和多头注意力、门控深度前馈网络、反向和最终残差连接、反向移位。这种设计使模型能够在不显著增加计算复杂度的情况下,有效捕获长程依赖关系。
特征融合优化
在跳跃连接路径上,研究团队引入了RLKA模块,其结构如图3(a)所示。该模块采用分解卷积策略,通过三个并行的大核深度卷积分别沿深度、高度和宽度轴处理特征,再通过元素求和进行特征聚合,最后通过1×1×1点卷积进行通道混合。内外双重残差连接设计确保了训练的稳定性和特征信息的保留。
解码器中的CSDF模块(图3(b))通过空间对齐不同分辨率的特征来增强多尺度融合。该模块首先对低分辨率解码器特征进行上采样细化,然后与高分辨率编码器特征进行通道拼接,最后通过3D卷积块合并多尺度信息。这种设计确保了语义上下文与结构细节的精确对齐,从而改善了复杂解剖区域的分割效果。
实验结果分析
在BraTS2023数据集上,SwinCLNet实现了88.31%±2.0%的平均Dice分数和8.95mm±3.1mm的平均HD95距离,显著优于所有基准模型。统计检验显示,与nnU-Net、VT-UNet、Swin UNETR、SegMamba和MedNeXt-M等先进模型相比,SwinCLNet在平均Dice和平均HD95上均表现出统计学显著改善(p<0.05)。
消融研究进一步验证了各模块的贡献。如表7所示,随着增强模块数量的增加,模型性能持续提升。完整配置的Model-5获得了最高的Dice分数(88.56%±0.27%)和最低的HD95距离(8.63mm±0.77mm),且表现出最低的方差,表明模型的稳定性和可靠性。
模块级消融研究(表9)显示,单独应用CSDF模块将平均Dice提高至83.46%±0.49%,单独应用W-MSA/SW-MSA模块提升至86.06%±0.40%,而联合应用这两个模块则达到88.42%±0.30%。最终加入RLKA模块后,性能进一步提升至88.56%±0.27%,证实了各模块的协同效应。
视觉比较结果(图8)生动展示了SwinCLNet的优越性。在代表性病例中,早期模型如3D U-Net和Attention U-Net只能粗略识别肿瘤,而无法准确界定亚区边界。较新模型如Swin UNETR和SegMamba虽有改进,但仍存在细微不准确。相比之下,SwinCLNet在所有比较模型中表现出最优的分割性能。
特别值得注意的是,在挑战性小病灶病例中(图9),SwinCLNet展现了卓越的鲁棒性。当SegMamba和MedNeXt倾向于遗漏或欠分割小型、离散的ET区域时,SwinCLNet能够更准确地识别这些困难的稀疏特征,证明了其在复杂场景下的实用性。
计算效率评估
在计算成本方面,SwinCLNet在保持优异性能的同时展现了良好的效率。如表10所示,虽然参数量(32.0M)和GPU内存使用量(2.81GB)相对较高,但FLOPs(153.0G)和推理时间(177ms)均优于多数基准模型。这种性能-效率的平衡使SwinCLNet更适合临床实际应用。
讨论与展望
尽管SwinCLNet取得了显著成果,研究团队也坦诚指出了其局限性。特别是在全肿瘤(WT)区域的改进相对有限,这可能源于模型使用了通用损失函数而未包含边界特定组件。此外,W-MSA/SW-MSA机制中的静态窗口设计可能不是所有子区域的最优选择。
针对这些局限,研究团队提出了未来改进方向:引入强调边界感知特征的辅助损失模块;探索动态或自适应窗口策略;研究处理多窗口尺度的并行架构;应用模型量化和知识蒸馏来降低资源消耗。这些方向将进一步提升模型在真实临床环境中的适用性和鲁棒性。
研究结论
本研究提出的SwinCLNet模型通过集成创新的W-MSA/SW-MSA、CSDF和RLKA模块,显著提升了脑肿瘤分割的性能。编码器中的交替注意力机制有效平衡了局部和全局上下文信息捕获;解码器中的跨尺度融合优化了边界分割精度;跳跃连接中的大核注意力扩展了感受野。大量实验证明,该模型在BraTS2023和2024数据集上均实现了最先进的性能,同时保持了合理的计算复杂度。这项工作不仅为脑肿瘤分割提供了有效的技术解决方案,也为医学图像分析领域的架构设计提供了新思路,对推动精准医疗发展具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号