基于窗口补丁聚类自注意力的视觉Transformer高效识别方法

【字体: 时间:2025年10月12日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文提出了一种自适应窗口补丁聚类注意力机制(Winclu Transformer),通过多维空间相似性筛选关键图像块参与自注意力计算,显著降低了Vision Transformer(ViT)的计算复杂度。该方法无需预处理或额外训练即可适配多种视觉任务,实验表明在保持精度的同时有效提升了效率,并揭示了图像中仅部分关键补丁直接影响识别准确率,而其余补丁主要贡献预测置信度的新发现。

  
亮点
  • 我们提出了一种窗口补丁聚类方法,用于确定哪些图像块参与自注意力计算。该方法减少了参与计算的补丁数量,降低了Transformer架构中自注意力模块的复杂度。
  • 我们提出了一种高效的窗口聚类注意力机制,并设计了一种新型Transformer模块——窗口聚类注意力(Winclu)模块,该模块可轻松集成到多种Transformer架构中。集成我们提出的注意力模块的Transformer无需预处理或额外训练即可无缝适配多种任务。
  • 我们探索了图像中不同补丁对Transformer架构网络性能的影响。研究发现,在典型Transformer架构中,仅部分补丁对精确目标识别至关重要,而其他补丁主要贡献预测的置信度。
方法
为使视觉Transformer更高效,最直接的方法是筛选图像中的无用部分并保留有用部分。这样,在对剩余部分进行自注意力计算时,可有效降低计算复杂度并提升网络效率。因此,解决问题的关键在于如何有效选择信息。本文采用聚类方法进行信息选择,并提出了一种...
实验
为验证方法的可行性并分析同类内自注意力的影响,我们在第4.1节中对ImageNet-1K图像分类和COCO目标检测进行了实验。在第4.2节中,我们通过消融实验评估了所提Winclu Transformer中不同聚类方法及其他设计元素。在第4.3节中,我们对超参数——聚类中心数量进行了实验,为...
讨论
本节重点探讨为何并非所有补丁对图像识别都至关重要。首先,在第5.1节中讨论整个算法网络中注意力计算的复杂度,有助于分析哪些补丁参与了自注意力计算。其次,我们研究了图像中不同数量的聚类中心和补丁对算法性能的影响,以阐明不同补丁对图像...
结论
本文受人类视觉系统启发,探索了网络通过学习不同聚类方法形成的特征来处理图像任务的可能性。通过设计相似性度量函数和分类模块,我们基于Swin Transformer分层架构实现了一种基于分类的有限注意力Transformer神经网络模型。与原始Swin Transformer网络结构相比,添加了...
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号