
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多轴视觉Transformer的医学图像分割方法MaxViT-UNet:融合局部与全局特征的创新架构
【字体: 大 中 小 】 时间:2025年06月12日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
为解决医学图像分割中CNN与ViT模型难以兼顾局部与全局特征的问题,研究人员提出混合编码器-解码器架构MaxViT-UNet,通过多轴自注意力机制(Max-SA)和MBConv模块实现高效特征融合。实验显示其在MoNuSeg18和MoNuSAC20数据集上Dice分数分别超越U-Net 2.36%/14.14%,验证了该架构在病理图像分割中的优越性。
医学图像分割是精准医疗的关键技术,尤其在病理诊断中,细胞核分割的精度直接影响疾病分级和治疗方案制定。传统卷积神经网络(CNN)虽能捕捉局部特征,但对长程依赖建模不足;而纯视觉Transformer(ViT)缺乏空间归纳偏置,且计算复杂度高。现有混合模型多聚焦编码器改进,解码器仍依赖卷积操作,导致全局上下文信息流失。针对这一瓶颈,巴基斯坦工程与应用科学研究院(PIEAS)的Abdul Rehman Khan团队提出MaxViT-UNet,成果发表于《Engineering Applications of Artificial Intelligence》。
研究采用三项核心技术:1)多轴自注意力(Max-SA)模块,通过块状(block)和网格(grid)注意力机制实现线性复杂度建模;2)混合解码器设计,逐级融合上采样特征与编码器跳跃连接;3)参数优化策略,重复使用MBConv-Max-SA组合块降低计算负荷。实验选用MoNuSeg18(组织核分割)和MoNuSAC20(多器官核分割)数据集验证性能。
架构设计:MaxViT-UNet包含四级编码器-解码器结构。编码器阶段(S0-S3)通过MBConv提取局部特征,Max-SA捕获跨区域关联;新型混合解码器通过转置卷积上采样后,采用"拼接+MaxViT块"二次优化特征。实验结果:在MoNuSeg18上达到82.14% Dice分数,较U-Net和Swin-UNet提升2.36%与5.31%;在更具挑战的MoNuSAC20上性能接近翻倍。消融实验证实混合解码器使参数量减少37%而精度提升1.8%。
结论:该研究首次将多轴注意力机制系统引入医学图像解码器,突破传统模型对高分辨率特征建模的局限。其创新点在于:1)通过Max-SA实现像素级全局推理与局部细节保留的平衡;2)模块化设计使模型在8GB显存设备即可训练1024×1024图像。这项工作为病理图像分析提供新范式,作者指出未来可扩展至3D医学影像分割领域。
生物通微信公众号
知名企业招聘