ELAFormer：多尺度视觉Transformer中早期局部注意力的创新机制及其在图像识别中的突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月17日 来源：Knowledge-Based Systems 7.2

编辑推荐：

　　【编辑推荐】针对Vision Transformer(ViT)全局注意力机制忽视局部特征的问题，本研究提出融合窗口位置自注意力(WPSA)和深度可分离空间缩减注意力(DSSRA)的ELAFormer模型。通过初始化相对位置约束注意力距离，使早期层捕获局部上下文，结合改进的MLP层，该模型在ImageNet(82.9%)、COCO(+1.3% mAP)和ADE20K(+1.8% mIoU)任务中超越SOTA，为复杂视觉任务提供高效骨干网络。

视觉Transformer(ViT)近年来在计算机视觉领域掀起革命，其全局自注意力机制虽能建立长程依赖，却面临两大痛点：早期层缺乏局部特征捕捉能力，且计算复杂度随图像分辨率呈平方级增长。现有改进方案如Swin Transformer的窗口自注意力(WSA)和PvT的空间缩减注意力(SRA)，或受限于窗口尺寸的二次增长，或难以兼顾短程依赖。更棘手的是，单尺度模型在语义分割等需要空间精确度的任务中表现乏力，而混合卷积与注意力的方案又让模型结构变得复杂。

针对这些挑战，中国某高校团队在《Knowledge-Based Systems》发表研究，提出ELAFormer模型。其核心创新在于：1) 窗口位置自注意力(WPSA)模块，通过初始化相对位置使注意力头模仿3×3卷积核的局部聚焦特性；2) 深度可分离空间缩减注意力(DSSRA)模块，用深度可分离(DS)卷积替代标准下采样，在降低参数量的同时增强全局特征提取；3) 改进的MLP层引入高效通道注意力机制。研究采用三阶段验证策略：先在ImageNet-1K验证分类性能，再通过COCO目标检测和ADE20K语义分割测试多尺度特征提取能力。

关键方法

WPSA设计：基于Cordonnier等人提出的卷积偏置初始化方法，约束查询键值对的距离，使4个以上注意力头聚焦邻域特征
DSSRA优化：将SRA中的标准卷积替换为DS卷积，并在值矩阵添加深度卷积增强上下文表征
跨数据集评估：使用RetinaNet 1x框架在COCO测试检测性能，UperNet评估ADE20K分割效果

研究结果

ImageNet分类：输入224×224分辨率时，28M参数的ELAFormer达到82.9%准确率，超越Focal Transformer等模型
COCO检测：以RetinaNet 1x为框架，小模型版比Focal Transformer提升1.3% mAP
ADE20K分割：结合UperNet，平均交并比(mIoU)和MS mIoU分别提升1.8%和2.0%
注意力可视化：热力图显示WPSA在早期阶段的注意力范围与3×3卷积核高度吻合(见图4、5)

结论与意义
ELAFormer通过双模块协同机制解决了ViT局部特征缺失的核心问题：WPSA在初始阶段像"显微镜头"捕捉纹理细节，DSSRA在深层充当"广角镜"整合全局信息。这种分阶段特征提取策略，使模型在保持28M轻量级参数的同时，成为首个在分类、检测、分割三大任务均超越CNN和Transformer混合模型的纯注意力架构。研究还揭示：1) 足够多的注意力头确实可模拟卷积核功能；2) 深度可分离卷积能有效降低SRA的内存消耗。局限性在于WPSA的计算复杂度仍与特征图分辨率相关，未来可通过动态窗口机制进一步优化。该工作为视觉Transformer的轻量化设计提供了新范式，其代码已开源供工业界应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号