Res2former:基于多尺度融合的Transformer-CNN混合架构及其在视觉任务中的突破性表现

【字体: 时间:2025年08月19日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  【编辑推荐】本文提出Res2former新型轻量级混合架构,巧妙结合CNN的局部特征提取优势与Transformer的全局建模能力,通过阶段式设计(浅层CNN替代Transformer降低计算成本,深层嵌入多尺度卷积核增强MLP结构)实现80.7% ImageNet-1K分类准确率,COCO检测(APbox 45.8)和分割(APmask 41.0)性能显著提升,为视觉任务提供高效解决方案。

  

Highlight

本文亮点在于提出Res2former——一种通过多尺度卷积与Transformer融合的创新架构,其核心突破包括:1)浅层采用CNN保留局部特征先验知识;2)深层引入多尺度卷积块嵌入Transformer的MLP结构,实现从细粒度到粗粒度的渐进式特征提取。

Related Work

现有视觉Transformer研究主要分为两类:纯Transformer架构(如ViT)和CNN-Transformer混合架构。前者依赖大规模数据弥补缺乏归纳偏置(Inductive Bias, IB)的缺陷,后者通过简单堆叠难以平衡计算效率与性能。

Overall Architecture

如图1(a)所示,Res2former包含三大模块:1)卷积茎(Convolution Stem)提升通道维度;2)Res2Net Block替代浅层Transformer提取局部特征;3)MS-Transformer Block通过并行多尺度卷积核(不同感受野)增强特征融合能力,显著提升COCO任务中APbox和APmask指标。

Dataset and Evaluation Metrics

实验采用ImageNet-1K(1000类/128万训练图)和MS COCO 2017基准数据集,图像统一缩放至256×256像素,评估指标包含分类Top-1准确率、检测APbox及分割APmask

Ablation Study

为验证模块有效性,选取ImageNet-1K子集(100类)进行消融实验。结果表明:1)浅层CNN结构降低38%计算量;2)多尺度融合机制使分类准确率提升1.7个百分点;3)渐进式特征提取策略优于直接拼接操作。

Conclusion

Res2former通过阶段式混合设计解决了Transformer在视觉任务中的计算瓶颈与局部建模缺陷,其MS-Transformer模块创新性地将多尺度卷积引入Transformer前馈层,在ImageNet和COCO任务中全面超越Visformer基线模型。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号