CAgMLP:一种基于MLP架构的图像分类模型,采用跨轴门控令牌混合器(Cross-Axis gated token mixer)来实现特征融合

《Journal of Visual Communication and Image Representation》:CAgMLP: An MLP-like architecture with a Cross-Axis gated token mixer for image classification

【字体: 时间:2025年09月27日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  提出基于多层的视觉模型CAgMLP,通过跨轴门控机制融合全局与局部空间信息,结合高效通道注意力模块,在小数据集上实现参数少、计算量低且性能优于CNN和Transformer模型。

  
Jielin Jiang|Quan Zhang|Yan Cui|Shun Wei|Yingnan Zhao
南京信息科学技术大学软件学院,中国江苏省南京市210044

引言

卷积神经网络(CNNs)[1]、[2]、[3]、[4]、[5]、[6]在计算机视觉领域取得了显著进展,成为许多应用的主流技术。近年来,受到自然语言处理(NLP)成功的启发,基于自注意力的Transformer模型[7]被引入计算机视觉领域,并展示了出色的性能。尽管ViT[8]及其变体[9]、[10]、[11]、[12]在许多视觉任务中超越了传统CNN,但它们需要大量的数据和计算资源,这可能导致在小型数据集上从头开始训练时性能不佳。值得注意的是,最近的研究[13]、[14]、[15]、[16]、[17]表明,多层感知(MLP)架构通过放弃自注意力模块,仅依赖MLP和跳跃连接来简化设计,可以实现与CNN和基于Transformer的方法相当的性能。
第一个基于MLP的视觉模型MLP-Mixer[13]将图像分割成几个固定大小的块,并将每个块展平为一个向量,最终形成一个二维矩阵,其维度是块的数量和每个块的特征维度数。MLP-Mixer主要由两个相似的模块组成:Token-Mixing MLP和Channel-Mixing MLP。以Token-Mixing MLP为例,该模块通过全连接层处理每个特征通道内的块序列,促进单个MLP层内所有空间标记之间的交互。然而,尽管这种全连接操作提供了全局感受野,但所需的大量参数导致计算复杂度显著增加。
最近的研究[15]、[18]、[19]、[20]、[21]、[22]提出将二维空间映射正交分解为沿水平和垂直轴的两个一维投影,从而在一个空间轴上捕获长距离依赖性,同时在另一个轴上保持精确的空间位置信息。如图1(a)和(b)所示,这种方法沿轴向应用MLP,有效地编码了空间信息,同时减少了模型参数和计算复杂度[23]。沿两个轴的投影可以串行执行(如RaftMLP[19]所示),也可以并行执行(如Sparse MLP[18]和DynaMixer[20]所示)。串行模型在一个轴上交互,然后依次在另一个轴上交互,而并行模型通过元素级加法或使用分裂注意力[24]融合两个轴的输出。然而,在单次投影过程中仅与水平或垂直标记交互的编码标记往往无法有效聚合来自两个轴的信息,限制了模型捕获复杂模式和细节的能力。
为了解决这些挑战,我们提出了一种新的视觉MLP模型Cross-Axis gated MLP(CAgMLP),它通过整合来自两个空间轴的特征信息来增强捕获图像全局空间结构的能力,如图1(c)所示。它由两个主要模块组成:Cross-Axis Gated Token-Mixing MLP(CGTM)和Convolutional Gated Channel-Mixing MLP(CGCM)。对于空间维度交互,CGTM进一步分为Global Cross-Axis Gated Token-Mixing MLP(GCGTM)和Local Cross-Axis Gated Token-Mixing MLP(LCGTM)。GCGTM沿两个空间轴执行长距离空间标记交互,并使用乘法门控机制将来自两个轴的信息整合到一个综合的空间表示中。类似地,LCGTM使用乘法门控机制沿空间轴聚合局部标记,补充图像的详细特征。对于通道维度交互,如4.4.2节所讨论的,我们引入了一个高效的空间注意力(ECA)[25]模块,通过聚合相邻通道的空间信息来形成对图像的更高级语义理解。在CGCM中,传统Gated Linear Units(GLU)[26]、[27]中的并行分支被扩展分支替换,以从低维输入捕获高维特征,并对输出进行逐元素乘法运算以捕获非线性特征,进一步优化了沿空间轴融合的特征。我们使用MDMLP[28]和Conv2NeXt[29]选择的三个小型基准数据集对CAgMLP进行了实验。在Caltech-101数据集[30]上,我们的模型变体CAgMLP-Tiny仅使用17.59M参数和2.52G FLOPs就实现了91.53%的top-1准确率,无需额外的训练数据。通过将CAgMLP-Tiny模型的参数分别增加到24.21M、41.69M和56.20M,我们分别实现了91.92%、92.15%和92.94%的top-1准确率,均超过了现有的最先进方法。
我们的贡献可以总结如下:
  • 我们提出了CGTM,这是一种使用乘法门控机制在空间投影的正交分解中更好地表示综合空间信息的标记混合MLP。
  • 我们分析了通道间特征之间的关系,并引入了轻量级的通道处理操作,以更有效地结合来自空间轴和相邻通道的信息。
  • 我们提出了CGCM,这是一种通道混合MLP,它通过两个并行扩展分支扩展输入维度,并使用逐元素乘法来捕获更丰富的高维和非线性特征。
  • 基于CGTM和CGCM,我们提出了CAgMLP,这是一种新颖且高效的类似MLP的架构。它在三个小型基准数据集上实现了最先进的性能,在准确率和效率方面均优于传统的MLP、CNN和基于Transformer的模型,同时参数更少,计算复杂度更低。这清楚地表明,无需大规模训练数据集也可以获得高性能。

部分摘录

基于MLP的架构

近年来,MLP模型在视觉任务中的应用引起了广泛关注,研究人员采用了各种方法来增强它们捕获标记间交互的能力并提高计算效率。Vision Permutator(ViP)[15]和SparseMLP[18]在两个轴向维度上编码特征表示,利用空间映射的解耦来降低编码全局信息的计算成本。Shift [31]、ASMLP [32]等

方法

本节详细描述了所提出的CAgMLP模型。在第3.1节中,我们介绍了整体架构。在第3.2节中,我们详细介绍了两个关键组件:Cross-Axis Gated Token-Mixing MLP(CGTM)和Convolutional Gated Channel-Mixing MLP(CGCM)。在第3.3节中,我们定义了CAgMLP架构的几种变体。

实验

在本节中,我们将CAgMLP与三种主流范式进行比较:基于CNN的、基于Transformer的和基于MLP的模型。第4.1节介绍了三个用于图像分类的公开可用数据集,并详细说明了实验配置。第4.2节展示了在这些数据集上将CAgMLP与先进方法进行比较的实验。第4.3节包括对CAgMLP关键设计组件的消融研究,以验证其优越性。最后,第4.4节使用可视化工具

结论

在本文中,我们提出了CAgMLP,这是一种基于MLP的新型视觉模型,它使用乘法门控操作融合来自不同轴的空间信息,增强了空间维度中的标记混合。它还结合了CGCM,后者整合了卷积操作和门控机制,允许在捕获局部信息和非线性特征的同时有效融合通道间的标记。我们在三个小规模图像分类数据集上进行了广泛的实验

CRediT作者贡献声明

Jielin Jiang:撰写 – 审稿与编辑,撰写 – 原始草稿,概念化。Quan Zhang:可视化,验证,软件,调查。Yan Cui:项目管理,资金获取。Shun Wei:监督,资源,正式分析。Yingnan Zhao:方法论,数据管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作部分得到了国家自然科学基金(项目编号:62001236)和江苏省高等教育机构自然科学基金(项目编号:20KJA520003)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号