基于多轴视觉Transformer的医学图像分割方法MaxViT-UNet:融合局部与全局特征的创新架构

【字体: 时间:2025年06月12日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  为解决医学图像分割中CNN与ViT模型难以兼顾局部与全局特征的问题,研究人员提出混合编码器-解码器架构MaxViT-UNet,通过多轴自注意力机制(Max-SA)和MBConv模块实现高效特征融合。实验显示其在MoNuSeg18和MoNuSAC20数据集上Dice分数分别超越U-Net 2.36%/14.14%,验证了该架构在病理图像分割中的优越性。

  

医学图像分割是精准医疗的关键技术,尤其在病理诊断中,细胞核分割的精度直接影响疾病分级和治疗方案制定。传统卷积神经网络(CNN)虽能捕捉局部特征,但对长程依赖建模不足;而纯视觉Transformer(ViT)缺乏空间归纳偏置,且计算复杂度高。现有混合模型多聚焦编码器改进,解码器仍依赖卷积操作,导致全局上下文信息流失。针对这一瓶颈,巴基斯坦工程与应用科学研究院(PIEAS)的Abdul Rehman Khan团队提出MaxViT-UNet,成果发表于《Engineering Applications of Artificial Intelligence》。

研究采用三项核心技术:1)多轴自注意力(Max-SA)模块,通过块状(block)和网格(grid)注意力机制实现线性复杂度建模;2)混合解码器设计,逐级融合上采样特征与编码器跳跃连接;3)参数优化策略,重复使用MBConv-Max-SA组合块降低计算负荷。实验选用MoNuSeg18(组织核分割)和MoNuSAC20(多器官核分割)数据集验证性能。

架构设计:MaxViT-UNet包含四级编码器-解码器结构。编码器阶段(S0-S3)通过MBConv提取局部特征,Max-SA捕获跨区域关联;新型混合解码器通过转置卷积上采样后,采用"拼接+MaxViT块"二次优化特征。实验结果:在MoNuSeg18上达到82.14% Dice分数,较U-Net和Swin-UNet提升2.36%与5.31%;在更具挑战的MoNuSAC20上性能接近翻倍。消融实验证实混合解码器使参数量减少37%而精度提升1.8%。

结论:该研究首次将多轴注意力机制系统引入医学图像解码器,突破传统模型对高分辨率特征建模的局限。其创新点在于:1)通过Max-SA实现像素级全局推理与局部细节保留的平衡;2)模块化设计使模型在8GB显存设备即可训练1024×1024图像。这项工作为病理图像分析提供新范式,作者指出未来可扩展至3D医学影像分割领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号