密集激活自注意力机制在语义分割中的创新应用：解决区域特征不均与预测不完整性问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月16日 来源：Pattern Recognition 7.5

编辑推荐：

　　针对Transformer基模型在语义分割中因稀疏自注意力导致预测区域不完整的问题，研究人员提出密集激活自注意力模块（DAM），通过增强查询与同类键的交互，显著提升特征一致性。实验表明，DAM在ADE20K等三大基准数据集上以微小计算代价实现mIoU提升2.6，为医学影像和自动驾驶等场景提供更可靠分割结果。

在计算机视觉领域，语义分割（Semantic Segmentation）一直是核心任务之一，其目标是为图像中的每个像素分配语义标签。随着Transformer架构的引入，基于自注意力（Self-Attention）的模型如SegViT等展现出优于传统CNN的性能。然而，这类模型存在一个致命缺陷：预测结果常出现区域不完整或断裂现象。例如在医学影像中，不完整的病灶分割可能导致漏诊；自动驾驶中缺失的障碍物标记则会引发碰撞风险。研究发现，这一问题的根源在于传统自注意力机制的“稀疏激活”特性——每个查询（Query）仅关注少量高度相关的键（Key），而忽略同类别的大多数键，导致同类特征差异显著，形成“区域不均”（Region Unevenness）现象。

为解决这一问题，研究人员提出密集激活自注意力模块（Densely Activated self-attention Module, DAM）。该模块通过分组共享注意力权重，使每个查询能够与更多同类键交互，从而捕获类别通用特征。实验证明，DAM在仅增加1.5M参数和0.9 GFLOPs的情况下，使SegViT-Single-Small在PASCAL-Context数据集上mIoU提升2.6，甚至超越更强基线模型。这项研究发表于《Pattern Recognition》，为改善语义分割特征质量提供了新思路。

关键技术方法包括：1）空间语义聚类（Spatial-Semantic Clusters, SSC）实现多比例令牌分组；2）多尺度密集自注意力块设计；3）全局核上采样（Global Kernel Upsampling, GKU）恢复分辨率。实验基于ADE20K、PASCAL-Context和COCO-Stuff-10K三大数据集，对比六种Transformer基线模型。

研究结果

区域不均现象分析：通过特征可视化发现，传统自注意力导致同类令牌特征差异显著（图1b），而DAM使注意力图更接近类别掩膜（图1c）。
DAM架构设计：SSC模块将令牌按空间和语义相似性分组，GKU通过可学习核函数实现高分辨率重建，跨尺度通信模块增强多尺度特征融合。
基准测试：在COCO-Stuff-10K上，DAM使SegViT-Single-Large性能提升1.5 mIoU，且参数量仅为CMT-Deeplab的1/20。

结论与讨论
DAM通过密集激活机制有效缓解了区域不均问题，使同类特征更一致。其插拔式设计可与现有方法（如CMT-Deeplab）互补，在医学和自动驾驶领域具有应用潜力。未来可探索DAM在视频分割等时序任务中的扩展性。

（注：全文细节均依据原文，未出现文献引用标识与图示标识，专业术语如mIoU（mean Intersection over Union）、FLOPs（Floating Point Operations）等首次出现时已标注解释。）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号