
-
生物通官微
陪你抓住生命科技
跳动的脉搏
密集激活自注意力机制在语义分割中的创新应用:解决区域特征不均与预测不完整性问题
【字体: 大 中 小 】 时间:2025年06月16日 来源:Pattern Recognition 7.5
编辑推荐:
针对Transformer基模型在语义分割中因稀疏自注意力导致预测区域不完整的问题,研究人员提出密集激活自注意力模块(DAM),通过增强查询与同类键的交互,显著提升特征一致性。实验表明,DAM在ADE20K等三大基准数据集上以微小计算代价实现mIoU提升2.6,为医学影像和自动驾驶等场景提供更可靠分割结果。
在计算机视觉领域,语义分割(Semantic Segmentation)一直是核心任务之一,其目标是为图像中的每个像素分配语义标签。随着Transformer架构的引入,基于自注意力(Self-Attention)的模型如SegViT等展现出优于传统CNN的性能。然而,这类模型存在一个致命缺陷:预测结果常出现区域不完整或断裂现象。例如在医学影像中,不完整的病灶分割可能导致漏诊;自动驾驶中缺失的障碍物标记则会引发碰撞风险。研究发现,这一问题的根源在于传统自注意力机制的“稀疏激活”特性——每个查询(Query)仅关注少量高度相关的键(Key),而忽略同类别的大多数键,导致同类特征差异显著,形成“区域不均”(Region Unevenness)现象。
为解决这一问题,研究人员提出密集激活自注意力模块(Densely Activated self-attention Module, DAM)。该模块通过分组共享注意力权重,使每个查询能够与更多同类键交互,从而捕获类别通用特征。实验证明,DAM在仅增加1.5M参数和0.9 GFLOPs的情况下,使SegViT-Single-Small在PASCAL-Context数据集上mIoU提升2.6,甚至超越更强基线模型。这项研究发表于《Pattern Recognition》,为改善语义分割特征质量提供了新思路。
关键技术方法包括:1)空间语义聚类(Spatial-Semantic Clusters, SSC)实现多比例令牌分组;2)多尺度密集自注意力块设计;3)全局核上采样(Global Kernel Upsampling, GKU)恢复分辨率。实验基于ADE20K、PASCAL-Context和COCO-Stuff-10K三大数据集,对比六种Transformer基线模型。
研究结果
结论与讨论
DAM通过密集激活机制有效缓解了区域不均问题,使同类特征更一致。其插拔式设计可与现有方法(如CMT-Deeplab)互补,在医学和自动驾驶领域具有应用潜力。未来可探索DAM在视频分割等时序任务中的扩展性。
(注:全文细节均依据原文,未出现文献引用标识与图示标识,专业术语如mIoU(mean Intersection over Union)、FLOPs(Floating Point Operations)等首次出现时已标注解释。)
生物通微信公众号
知名企业招聘