密集激活自注意力机制在语义分割中的创新应用:解决区域特征不均与预测不完整性问题

【字体: 时间:2025年06月16日 来源:Pattern Recognition 7.5

编辑推荐:

  针对Transformer基模型在语义分割中因稀疏自注意力导致预测区域不完整的问题,研究人员提出密集激活自注意力模块(DAM),通过增强查询与同类键的交互,显著提升特征一致性。实验表明,DAM在ADE20K等三大基准数据集上以微小计算代价实现mIoU提升2.6,为医学影像和自动驾驶等场景提供更可靠分割结果。

  

在计算机视觉领域,语义分割(Semantic Segmentation)一直是核心任务之一,其目标是为图像中的每个像素分配语义标签。随着Transformer架构的引入,基于自注意力(Self-Attention)的模型如SegViT等展现出优于传统CNN的性能。然而,这类模型存在一个致命缺陷:预测结果常出现区域不完整或断裂现象。例如在医学影像中,不完整的病灶分割可能导致漏诊;自动驾驶中缺失的障碍物标记则会引发碰撞风险。研究发现,这一问题的根源在于传统自注意力机制的“稀疏激活”特性——每个查询(Query)仅关注少量高度相关的键(Key),而忽略同类别的大多数键,导致同类特征差异显著,形成“区域不均”(Region Unevenness)现象。

为解决这一问题,研究人员提出密集激活自注意力模块(Densely Activated self-attention Module, DAM)。该模块通过分组共享注意力权重,使每个查询能够与更多同类键交互,从而捕获类别通用特征。实验证明,DAM在仅增加1.5M参数和0.9 GFLOPs的情况下,使SegViT-Single-Small在PASCAL-Context数据集上mIoU提升2.6,甚至超越更强基线模型。这项研究发表于《Pattern Recognition》,为改善语义分割特征质量提供了新思路。

关键技术方法包括:1)空间语义聚类(Spatial-Semantic Clusters, SSC)实现多比例令牌分组;2)多尺度密集自注意力块设计;3)全局核上采样(Global Kernel Upsampling, GKU)恢复分辨率。实验基于ADE20K、PASCAL-Context和COCO-Stuff-10K三大数据集,对比六种Transformer基线模型。

研究结果

  1. 区域不均现象分析:通过特征可视化发现,传统自注意力导致同类令牌特征差异显著(图1b),而DAM使注意力图更接近类别掩膜(图1c)。
  2. DAM架构设计:SSC模块将令牌按空间和语义相似性分组,GKU通过可学习核函数实现高分辨率重建,跨尺度通信模块增强多尺度特征融合。
  3. 基准测试:在COCO-Stuff-10K上,DAM使SegViT-Single-Large性能提升1.5 mIoU,且参数量仅为CMT-Deeplab的1/20。

结论与讨论
DAM通过密集激活机制有效缓解了区域不均问题,使同类特征更一致。其插拔式设计可与现有方法(如CMT-Deeplab)互补,在医学和自动驾驶领域具有应用潜力。未来可探索DAM在视频分割等时序任务中的扩展性。

(注:全文细节均依据原文,未出现文献引用标识与图示标识,专业术语如mIoU(mean Intersection over Union)、FLOPs(Floating Point Operations)等首次出现时已标注解释。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号