
-
生物通官微
陪你抓住生命科技
跳动的脉搏
卷积与Transformer的多级特征交叉注意力及表征学习融合在图像分类中的协同优化
【字体: 大 中 小 】 时间:2025年05月29日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
为解决卷积神经网络(ConvNets)局部感知局限与视觉Transformer(ViT)数据依赖性强的问题,研究人员提出轻量级混合网络CTRL-F,通过多级特征交叉注意力(MFCA)模块和自适应知识融合(AKF/CKF)技术,在Oxford-102 Flowers等数据集上取得84.01%的Top-1准确率,为资源受限设备提供高效分类方案。
在计算机视觉领域,卷积神经网络(ConvNets)曾凭借其内置的空间归纳偏置长期占据主导地位,而Transformer凭借全局处理能力在自然语言处理领域大放异彩后,也被引入视觉任务。然而,纯视觉Transformer(ViT)存在两大痛点:一是需要海量训练数据(如JFT-300M)才能达到与ConvNets相当的性能;二是其自注意力机制的计算复杂度随输入分辨率呈二次方增长,难以部署在资源受限设备上。与此同时,传统ConvNets虽计算高效,却难以建模长程依赖关系。这种"鱼与熊掌不可兼得"的困境,促使学界探索将二者优势融合的混合架构。
论文发表在《Engineering Applications of Artificial Intelligence》的研究团队提出CTRL-F框架,其核心技术包括:1) 多级特征交叉注意力(MFCA)模块,通过双分支Transformer分别处理CNN不同阶段提取的大小图像块(patch),并利用交叉注意力实现知识交互;2) 自适应知识融合(AKF)动态调整CNN局部特征与Transformer全局特征的权重;3) 协同知识融合(CKF)通过拼接实现特征互补。实验采用Oxford-102 Flowers、CUB-200和PlantVillage等标准数据集验证性能。
Methodology部分
研究团队设计了一个包含MBConv模块的CNN路径与MFCA模块并行的架构。MFCA创新性地在4×4和8×8两种尺度上提取特征,小尺度分支捕获细节特征,大尺度分支建模粗粒度关系,二者通过交叉注意力层实现双向知识传递。AKF采用可学习参数α动态平衡两种特征贡献,初期侧重CNN的归纳偏置,后期偏向Transformer的全局上下文;CKF则通过1×1卷积压缩拼接后的特征维度。
Experiments部分
在Oxford-102 Flowers数据集上,CTRL-F以84.01%的Top-1准确率超越ConvNeXt-Tiny(82.3%)和DeiT-Tiny(80.6%);在CUB-200鸟类细粒度分类任务中达到61.68%,较PVTv2-B0提升2.18%;在PlantVillage植物病害数据集上创下99.91%的惊人准确率。消融实验显示:单独使用MFCA可使ResNet50提升3.2%,AKF+CKF组合策略比单一融合方式平均提高1.5%。
Conclusion部分
该研究证实:1) 在CNN特征金字塔上应用多尺度Transformer能有效降低计算复杂度;2) 动态融合机制比固定权重策略更适应不同训练阶段需求;3) 轻量级设计使模型参数量控制在5M以内,适合边缘计算。这项工作为CV领域提供了新的架构设计范式,其MFCA模块的级联思想可延伸至目标检测等下游任务,AKF/CKF机制对多模态融合也有借鉴价值。
生物通微信公众号
知名企业招聘