Superior Efficient Transformer(SET):融合卷积与自注意力的轻量化视觉模型创新研究

【字体: 时间:2025年07月20日 来源:Journal of Visual Communication and Image Representation 2.6

编辑推荐:

  为解决移动端神经网络效率瓶颈问题,研究人员提出新型轻量化模型Superior Efficient Transformer(SET),通过混合双注意力模块(HDAM)整合卷积与自注意力机制,在ImageNet/COCO/ADE20k数据集上以1.2M-5.6M参数量实现73.2%-78.7%分类准确率,为资源受限设备提供高效视觉解决方案。

  

随着智能手机和边缘计算设备的普及,如何在有限算力下实现高效视觉处理成为关键挑战。传统卷积神经网络(CNN)如MobileNet系列虽通过深度可分离卷积(depthwise separable convolutions)和逆残差块(IRB)优化效率,但空间建模能力受限;而Vision Transformers(ViTs)虽凭借多头自注意力(MHSA)提升性能,却面临二次方计算复杂度的瓶颈。更棘手的是,现有混合模型往往结构复杂,且依赖昂贵的数据增强和GPU集群训练,难以实际落地。

针对这一难题,研究人员提出革命性的Superior Efficient Transformer(SET)模型。其核心创新在于混合双注意力模块(HDAM),巧妙结合窗口集成空间注意力(WISA)和自适应通道门(ACG):WISA通过窗口化自注意力与深度卷积的融合,在局部特征提取中兼顾边缘细节;ACG则利用全局池化强化通道依赖性。二者通过通道分割并行处理,再经双残差结构整合,形成高效的空间-通道协同建模。实验显示,SET-S/T/N变体在ImageNet仅用0.3-1.4 GFLOPs即超越MobileViT等模型,单块NVIDIA 4090显卡即可完成训练,相关成果发表于《Journal of Visual Communication and Image Representation》。

关键技术包括:1)基于窗口的自注意力(WISA)与深度卷积的混合架构;2)多尺度池化驱动的通道注意力(ACG);3)集成IRB的Transformer编码器设计;4)在ImageNet-1k、MS COCO和ADE20k等多任务基准测试体系验证。

【Evaluation of efficient models】提出四维评估标准(效率/泛化性/易训练性/简洁性),通过对比MobileNet系列、MobileViT等模型,证实SET在参数量减少30%时仍保持更高精度。

【The proposed method】HDAM模块通过分治策略将通道维度拆解,WISA子模块采用7×7深度卷积增强局部感受野,ACG则动态校准通道权重,二者输出拼接后经LayerNorm(LN)稳定训练。

【Experimental】在ImageNet-1k分类任务中,SET-N以1.2M参数达73.2% top-1准确率;MS COCO目标检测mAP提升2.1%;ADE20k语义分割mIoU提高3.8%,且推理速度较MobileViT快1.7倍。

【Conclusion】SET的创新在于:1)首次将卷积的空间归纳偏置与自注意力的动态建模通过HDAM有机融合;2)提出可扩展的SET块替代传统MLP;3)验证了轻量化模型在跨视觉任务中的通用性。该研究为边缘计算场景提供新的架构范式,其开源代码已促进社区复现应用。值得注意的是,SET对数据增强的低依赖性(仅需单GPU训练)大幅降低落地门槛,特别适合医疗影像分析等资源敏感领域。未来可探索HDAM在视频理解等时序任务中的扩展潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号