
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ELAFormer:多尺度视觉Transformer中早期局部注意力的创新机制及其在图像识别中的突破
【字体: 大 中 小 】 时间:2025年06月17日 来源:Knowledge-Based Systems 7.2
编辑推荐:
【编辑推荐】针对Vision Transformer(ViT)全局注意力机制忽视局部特征的问题,本研究提出融合窗口位置自注意力(WPSA)和深度可分离空间缩减注意力(DSSRA)的ELAFormer模型。通过初始化相对位置约束注意力距离,使早期层捕获局部上下文,结合改进的MLP层,该模型在ImageNet(82.9%)、COCO(+1.3% mAP)和ADE20K(+1.8% mIoU)任务中超越SOTA,为复杂视觉任务提供高效骨干网络。
视觉Transformer(ViT)近年来在计算机视觉领域掀起革命,其全局自注意力机制虽能建立长程依赖,却面临两大痛点:早期层缺乏局部特征捕捉能力,且计算复杂度随图像分辨率呈平方级增长。现有改进方案如Swin Transformer的窗口自注意力(WSA)和PvT的空间缩减注意力(SRA),或受限于窗口尺寸的二次增长,或难以兼顾短程依赖。更棘手的是,单尺度模型在语义分割等需要空间精确度的任务中表现乏力,而混合卷积与注意力的方案又让模型结构变得复杂。
针对这些挑战,中国某高校团队在《Knowledge-Based Systems》发表研究,提出ELAFormer模型。其核心创新在于:1) 窗口位置自注意力(WPSA)模块,通过初始化相对位置使注意力头模仿3×3卷积核的局部聚焦特性;2) 深度可分离空间缩减注意力(DSSRA)模块,用深度可分离(DS)卷积替代标准下采样,在降低参数量的同时增强全局特征提取;3) 改进的MLP层引入高效通道注意力机制。研究采用三阶段验证策略:先在ImageNet-1K验证分类性能,再通过COCO目标检测和ADE20K语义分割测试多尺度特征提取能力。
关键方法
研究结果
结论与意义
ELAFormer通过双模块协同机制解决了ViT局部特征缺失的核心问题:WPSA在初始阶段像"显微镜头"捕捉纹理细节,DSSRA在深层充当"广角镜"整合全局信息。这种分阶段特征提取策略,使模型在保持28M轻量级参数的同时,成为首个在分类、检测、分割三大任务均超越CNN和Transformer混合模型的纯注意力架构。研究还揭示:1) 足够多的注意力头确实可模拟卷积核功能;2) 深度可分离卷积能有效降低SRA的内存消耗。局限性在于WPSA的计算复杂度仍与特征图分辨率相关,未来可通过动态窗口机制进一步优化。该工作为视觉Transformer的轻量化设计提供了新范式,其代码已开源供工业界应用。
生物通微信公众号
知名企业招聘