基于Transformer引导原型的多尺度解码器在少样本语义分割中的创新应用

【字体: 时间:2025年07月29日 来源:Image and Vision Computing 4.2

编辑推荐:

  本研究针对少样本语义分割(FSS)中局部语义特征丢失和计算复杂度高的问题,提出基于Transformer架构的MSDNet框架。通过空间Transformer解码器(STD)和多尺度解码器,实现了支持图像与查询图像的语义对齐,在PASCAL-5i和COCO-20i数据集上以仅1.5M参数达到SOTA性能,为医疗影像等数据稀缺场景提供高效解决方案。

  

在计算机视觉领域,语义分割(Semantic Segmentation)一直是项极具挑战的任务,它要求对图像中每个像素进行精确分类。尽管卷积神经网络(CNN)已取得显著进展,但传统方法需要大量标注数据——这在医疗影像等实际场景中往往难以满足。少样本语义分割(Few-shot Semantic Segmentation, FSS)应运而生,旨在通过少量标注样本实现新类别的分割。然而现有方法面临两难困境:原型(Prototype)方法会丢失细节特征,而像素级(Pixel-wise)方法又计算量巨大。

针对这一瓶颈,研究人员在《Image and Vision Computing》发表创新成果,提出MSDNet框架。该研究通过三个核心技术突破传统局限:首先,设计空间Transformer解码器(STD),将支持图像(Support Image)原型作为Query,查询图像(Query Image)特征作为Key/Value,实现跨图像的语义对齐;其次,开发多尺度解码器,分层整合不同分辨率特征;最后引入上下文掩码生成模块(CMGM),通过余弦相似度计算增强像素级关系理解。这些创新仅用1.5M参数,就在PASCAL-5i和COCO-20i数据集上实现竞争性性能。

关键技术包括:1) 基于ResNet的共享特征提取;2) 支持原型生成机制;3) 多尺度特征金字塔融合;4) Transformer-guided的多头交叉注意力计算。实验采用PASCAL-5i(20类分4组)和COCO-20i(80类分4组)标准划分,在1-shot和5-shot设置下验证。

研究结果显示:

  1. 空间Transformer解码器的有效性:通过将支持原型作为Query,STD模块在COCO-20i上使mIoU提升2.3%,证明其能有效捕捉跨图像语义关联。
  2. 多尺度特征的优势:整合Conv2~Conv4阶段特征后,小目标分割精度提高4.7%,验证分层解码对细节保留的重要性。
  3. 轻量化性能:仅1.5M参数的模型在PASCAL-5i Fold3达到61.2% mIoU,超越多数参数量更大的对比模型。

结论部分强调,该框架首次将Transformer原型引导与多尺度解码结合,在保持轻量化的同时解决了特征丢失与计算复杂度的矛盾。特别是CMGM模块提供的语义先验,为少样本条件下的像素级推理提供了新思路。这项研究不仅为自动驾驶、医疗影像等数据稀缺场景提供实用工具,更为多模态特征融合研究开辟了新方向。未来可进一步探索原型与像素方法的动态平衡机制,以及在3D医学图像分割中的迁移应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号