编辑推荐:
针对传统 ViTs 在 3D 医学图像分割中难捕捉多粒度交互的问题,研究人员提出基于 GMDA 模块的 GMDA UNETR 模型。在 INSTANCE 2022 和 ACDC 数据集上,该模型展现优异分割性能,为多任务医学图像分割提供新框架。
在医学影像领域,精准的 3D 图像分割是疾病诊断与治疗的关键环节。然而,传统基于卷积神经网络(CNN)的方法受限于局部感受野,难以捕捉图像中的长距离语义依赖,导致复杂结构或微小病变的分割精度不足。近年来,视觉 Transformer(ViTs)凭借其建模长距离依赖的能力崭露头角,但传统 ViTs 的注意力机制仅能在单一粒度上建模 token 间的关联,无法有效捕捉 token - 组、组 - 组等多粒度交互关系,这使得其在处理医学图像中异质病变或精细解剖结构时表现受限。如何在保留局部空间细节的同时,高效建模多粒度特征交互,成为 3D 医学图像分割领域亟待解决的难题。
为突破上述瓶颈,国内研究团队开展了相关研究,提出一种基于组混合双重注意力(Group-Mixing Dual Attention, GMDA)模块的 3D 医学图像分割方法 ——GMDA UNETR,并将研究成果发表在《Biomedical Signal Processing and Control》。该研究旨在通过创新的注意力机制设计,提升模型对多粒度特征交互的建模能力,进而改善复杂医学图像的分割精度。
研究中采用的关键技术方法包括:
- 特征聚合模块:将查询、键、值分组为多个粒度,捕捉 token-token、token - 组、组 - 组层级的关联,生成更具判别性的特征表示。
- 双重注意力模块:包含通道注意力与空间注意力子模块。通道注意力子模块通过计算通道间相关矩阵增强关键通道表示,并利用通道压缩和空间 excitation 模块保留局部空间细节;空间注意力子模块采用压缩投影策略降低键和值的空间维度,在压缩空间计算注意力矩阵以高效捕捉长距离依赖。
- 数据集与验证方法:在 INSTANCE 2022(颅内出血 CT 分割数据集,100 例)和 ACDC(心脏诊断 MRI 数据集)上进行五折交叉验证,评估模型性能。
研究结果
1. 模型设计与多粒度特征交互建模
GMDA UNETR 以 UNETR++ 框架为基础,嵌入 GMDA 模块。特征聚合模块通过多粒度分组,突破传统 Q-K-V 自注意力仅建模单一粒度 token 关联的局限,有效捕捉不同层级的特征交互。双重注意力模块中,通道注意力子模块通过强化关键通道并保留空间细节,提升特征 discriminability;空间注意力子模块通过压缩投影策略,在降低计算复杂度的同时维持长距离依赖建模能力。
2. INSTANCE 2022 数据集表现
在颅内出血 CT 分割任务中,模型取得平均 Dice 相似系数(DSC)75.0%、95% 豪斯多夫距离(HD95)25.78 mm 的结果,表明其对复杂病变的边界对齐和区域覆盖能力显著优化,可精准勾勒颅内出血的不规则轮廓,为脑出血的精准诊断与体积评估提供支持。
3. ACDC 数据集表现
在心脏解剖结构分割任务中,模型对右心室、心肌、左心室的 DSC 分别达到 91.6%、90.5%、94.7%,整体平均 DSC 为 92.3%。结果显示,GMDA UNETR 在不同成像模态(MRI)和器官结构(心脏)的分割中均表现出高效性与鲁棒性,能准确区分心脏各腔室及心肌组织,为心脏疾病的定量分析奠定基础。
研究结论与意义
本研究提出的 GMDA UNETR 模型通过引入多粒度特征交互与双重注意力机制,显著提升了 3D 医学图像分割中对长距离依赖和局部细节的平衡建模能力。实验结果表明,该模型在异质病变(如颅内出血)和复杂解剖结构(如心脏)的分割中均展现出优越性能,为多任务医学图像分割提供了可行的技术框架。其创新点在于:
- 将特征聚合引入 Transformer 计算,缓解传统自注意力机制的单一粒度局限;
- 重新设计双重注意力模块,强化通道与空间信息的协同作用;
- 提出多尺度特征保留的压缩投影与通道压缩 - 空间 excitation 机制,优化空间细节保留。
该研究成果不仅为医学影像领域中高精度分割模型的开发提供了新思路,也为后续结合更多模态数据或拓展至其他疾病(如肿瘤、神经病变)的分割研究奠定了基础,有望推动人工智能在医学诊断中的临床应用。