ELAFormer:多尺度视觉Transformer中早期局部注意力的创新机制及其在图像识别中的突破

【字体: 时间:2025年06月17日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  【编辑推荐】针对Vision Transformer(ViT)全局注意力机制忽视局部特征的问题,本研究提出融合窗口位置自注意力(WPSA)和深度可分离空间缩减注意力(DSSRA)的ELAFormer模型。通过初始化相对位置约束注意力距离,使早期层捕获局部上下文,结合改进的MLP层,该模型在ImageNet(82.9%)、COCO(+1.3% mAP)和ADE20K(+1.8% mIoU)任务中超越SOTA,为复杂视觉任务提供高效骨干网络。

  

视觉Transformer(ViT)近年来在计算机视觉领域掀起革命,其全局自注意力机制虽能建立长程依赖,却面临两大痛点:早期层缺乏局部特征捕捉能力,且计算复杂度随图像分辨率呈平方级增长。现有改进方案如Swin Transformer的窗口自注意力(WSA)和PvT的空间缩减注意力(SRA),或受限于窗口尺寸的二次增长,或难以兼顾短程依赖。更棘手的是,单尺度模型在语义分割等需要空间精确度的任务中表现乏力,而混合卷积与注意力的方案又让模型结构变得复杂。

针对这些挑战,中国某高校团队在《Knowledge-Based Systems》发表研究,提出ELAFormer模型。其核心创新在于:1) 窗口位置自注意力(WPSA)模块,通过初始化相对位置使注意力头模仿3×3卷积核的局部聚焦特性;2) 深度可分离空间缩减注意力(DSSRA)模块,用深度可分离(DS)卷积替代标准下采样,在降低参数量的同时增强全局特征提取;3) 改进的MLP层引入高效通道注意力机制。研究采用三阶段验证策略:先在ImageNet-1K验证分类性能,再通过COCO目标检测和ADE20K语义分割测试多尺度特征提取能力。

关键方法

  1. WPSA设计:基于Cordonnier等人提出的卷积偏置初始化方法,约束查询键值对的距离,使4个以上注意力头聚焦邻域特征
  2. DSSRA优化:将SRA中的标准卷积替换为DS卷积,并在值矩阵添加深度卷积增强上下文表征
  3. 跨数据集评估:使用RetinaNet 1x框架在COCO测试检测性能,UperNet评估ADE20K分割效果

研究结果

  1. ImageNet分类:输入224×224分辨率时,28M参数的ELAFormer达到82.9%准确率,超越Focal Transformer等模型
  2. COCO检测:以RetinaNet 1x为框架,小模型版比Focal Transformer提升1.3% mAP
  3. ADE20K分割:结合UperNet,平均交并比(mIoU)和MS mIoU分别提升1.8%和2.0%
  4. 注意力可视化:热力图显示WPSA在早期阶段的注意力范围与3×3卷积核高度吻合(见图4、5)

结论与意义
ELAFormer通过双模块协同机制解决了ViT局部特征缺失的核心问题:WPSA在初始阶段像"显微镜头"捕捉纹理细节,DSSRA在深层充当"广角镜"整合全局信息。这种分阶段特征提取策略,使模型在保持28M轻量级参数的同时,成为首个在分类、检测、分割三大任务均超越CNN和Transformer混合模型的纯注意力架构。研究还揭示:1) 足够多的注意力头确实可模拟卷积核功能;2) 深度可分离卷积能有效降低SRA的内存消耗。局限性在于WPSA的计算复杂度仍与特征图分辨率相关,未来可通过动态窗口机制进一步优化。该工作为视觉Transformer的轻量化设计提供了新范式,其代码已开源供工业界应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号