GH-UNet:基于分组动态门控的卷积-ViT混合模型在医学图像分割中的突破性应用

【字体: 时间:2025年07月12日 来源:npj Digital Medicine 12.4

编辑推荐:

  本研究针对医学图像分割中长程依赖捕捉不足和计算效率低下的问题,提出GH-UNet模型。通过融合卷积-ViT混合编码器、分组动态门控(GDG)模块和多级级联解码器,在ISIC2016等5个公开数据集上实现DICE 93.78%(超越H2Former 1.37%),参数量仅12.81M(降低62%)。该研究为复杂解剖结构分割提供了高效解决方案,代码已开源。

  

医学图像分割是精准医疗的重要基石,但现有方法面临两大挑战:传统卷积神经网络(CNN)难以捕捉复杂解剖结构的全局关联,而纯Transformer模型又受限于高昂的计算成本。以皮肤黑色素瘤分割为例,病灶边缘模糊且形态多变,现有模型常出现欠分割或过分割现象。这种技术瓶颈直接影响了临床诊断的准确性和效率。

针对这一难题,中南大学第二湘雅医院的研究团队在《npj Digital Medicine》发表了创新性成果。他们提出GH-UNet模型,通过三大核心技术突破:1)混合卷积-ViT编码器实现局部细节与全局上下文协同建模;2)分组动态门控(GDG)模块动态调节通道特征权重;3)多尺度级联解码器优化空间信息融合。研究采用5个公开数据集(ISIC2016、Kvasir-SEG等)和1个私有脑肿瘤数据集(BT-Seg)进行验证,首次将RWKV架构的线性复杂度优势引入医学图像分割领域。

关键技术方法包括:1)多尺度门控注意力(MSGA)块整合1×1/5×5/7×7卷积核特征;2)通道-空间门控(CSG)机制实现跨尺度融合;3)Haar小波下采样与DySample动态上采样组合;4)混合损失函数(BCE:Dice:IoU=0.5:1.5:0.5)。所有实验在NVIDIA 4090 GPU上完成,输入尺寸涵盖256×256至768×768。

研究结果
性能对比:在ISIC2016皮肤病变数据集上,GH-UNet以93.78% Dice和88.39% IoU超越所有对比模型,参数量仅为H2Former的38%。如图1所示,其计算效率(31.58 FPS)显著优于TransUNet等主流模型。

多病种验证:在Kvasir-SEG息肉分割中达到92.68% Dice,IDRiD眼底微病变检测提升9.85% Dice。对ACDC心脏MRI数据集,心室分割精度达92.61%,证明其对多变解剖结构的适应性。

可视化分析:如图3所示,GH-UNet能准确识别微小病灶(白色箭头)和复杂边界(红色箭头),而H2Former易将小目标误判为块状结构。在脑肿瘤私有数据集BT-Seg上,其水肿区分割DICE达83.93%,整体性能超越nnUNet 20.19%。

结论与意义
该研究通过模块化设计实现三大创新:1)MSGA块整合多尺度卷积特征;2)GDG模块采用{2,4,8,8,4,2,2}分组策略优化通道交互;3)动态上采样技术将HD95距离降低至12.77。尽管在超声图像等低对比度场景仍存在局限,但GH-UNet已展现出显著的临床价值——其开源实现为实时诊断系统开发提供了新范式,尤其适合资源受限的医疗场景。未来通过3D稀疏注意力等技术的融合,有望进一步推动智能辅助诊断的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号