ATARS:一种用于少样本细粒度分类的自适应任务感知特征学习方法

《Knowledge-Based Systems》:ATARS: Adaptive Task-Aware Feature Learning for Few-Shot Fine-Grained Classification

【字体: 时间:2026年02月05日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  针对少数样本细粒度分类中任务信息利用不足的问题,本文提出ATARS框架,通过任务感知对齐、特征重建和通道自适应选择协同优化,有效提升模型在细粒度场景下的分类性能,并在多个基准数据集上验证其优越性。

  
小龙晓梅|王新月|杨成|何宗博|何倩|陈向东
中国成都西南交通大学信息科学与技术学院

摘要

由于类别间的细微差异和有限的标注数据,少样本细粒度分类任务具有挑战性。现有方法往往无法充分利用任务级信息,从而限制了其对稀缺样本的适应能力。我们提出了ATARS,这是一个任务感知框架,它将对齐、特征重建和基于任务的通道选择整合到一个协调的流程中。这些组件逐步优化了任务自适应的特征表示,提高了类别内一致性和区分能力。在五个细粒度基准测试上的广泛实验证明了该设计的有效性:ATARS在Cars任务上的5样本5分类准确率为97.38%,在CUB任务上为94.40%,在Dogs任务上为89.78%,始终优于之前的基于重建和任务感知的方法。结果表明,在任务感知指导下,协调组件设计在少样本场景中的优势。源代码可在此处获取:https://github.com/lxm-hjk/ATARS-FSL

引言

深度学习在图像识别和物体检测等计算机视觉任务中取得了显著进展。然而,这些方法通常需要大量的标注数据,而收集这些数据既昂贵又耗时[1]。在细粒度识别任务中,这一限制尤为明显,因为标注工作需要专家知识来区分类别间的细微差异[2]。因此,少样本学习(FSL)作为一种有前景的解决方案应运而生,旨在仅通过少量标记样本进行泛化[3]。
在FSL的基础上,少样本细粒度学习(FSFG)解决了标注成本高昂且类别间差异微妙的场景[4]。典型应用包括生物学和生态学中的稀有物种识别、医学成像中的病理亚型分类[5]、工业检测中的细微缺陷[6],以及电子商务中的细粒度产品检索[8][9]。FSFG方法通过利用元学习、基于注意力的机制和特征对齐,专注于局部区分线索,从而在有限的监督下提高泛化能力。
尽管有这些优势,FSFG仍然具有挑战性。类别之间的差异通常仅体现在细微的局部属性上,而较大的类别内变化可能由背景杂乱、姿态变化或遮挡引起[10][11]。这种类别间差异小但类别内变化大的特点削弱了许多基于度量或嵌入的方法,因为全局表示常常无法捕捉到与任务相关的线索。图1展示了来自细粒度数据集的代表性示例。
现有的FSFG方法可以分为三种策略:基于度量的学习(学习支持样本和查询样本之间的距离/度量函数)[12][13]、特征重建或关系方法(从支持样本重建原型或查询特征)[14][15],以及任务感知建模(根据任务级线索或注意力图来条件化表示学习)[16]。虽然这些策略推动了该领域的发展,但仍存在一些共同的限制:(i) 模块通常设计时联合优化不足,往往依赖于堆叠或单独训练的组件,例如DiffKendall[17]、LM-ProtoNet[18]和Prompt-Based Metric Learning[19];(ii) 对齐、重建和通道选择通常被孤立处理,很少有研究探索由任务语义引导的动态交互,例如Bi-FRN[11]、SRM[20]、TDM[21]和ATR-Net[10];(iii) 模型在噪声较大或支持样本有限的情况下可能表现出脆弱性,可能会过度拟合于虚假的相关性,而不是学习到与任务相关的强健结构,正如TADAM[16]和ATR-Net[10]中所观察到的。
为了解决这些问题,最近在细粒度识别方面的进展越来越多地关注将整体上下文与详细特征提取相结合。例如,GLIIDE[22]展示了融合全局和局部图像描述以提高表示密度的效果。类似地,我们提出了ATARS(自适应任务感知重建与选择),这是一个统一的任务感知框架,系统地将对齐、重建和基于任务的通道选择整合在一起。ATARS并没有引入全新的范式,而是改进并连接了现有的策略,使各个组件能够有效交互。
具体来说,ATARS采用基于交叉注意力的任务感知对齐模块(TAAM)来提取任务级描述符,并根据任务上下文自适应地对齐特征。然后通过自引导重建模块(SGRM)重建这些对齐的特征,以捕捉语义关系。最终的表示进一步指导任务条件通道选择(TCCS)机制,使模型能够在任务上下文中强调区分性强的通道。
本文的主要贡献总结如下:
  • 我们提出了ATARS,这是一个统一的、任务感知的框架,它协同利用对齐、重建和通道选择来进行少样本细粒度分类。
  • 我们提出了TAAM,它生成任务描述符来指导空间和通道维度上的特征对齐。
  • 我们设计了SGRM和TCCS机制,它们基于任务感知的特征来增强在噪声较大或支持样本有限情况下的语义恢复和鲁棒性。
  • 在五个细粒度基准测试上的广泛实验验证了所提出框架的有效性和通用性,在斯坦福汽车数据集的具有挑战性的5样本5分类任务中实现了最先进的准确率(97.38%)。
  • 相关工作

    相关工作

    FSFG的目标是从少量标注样本中识别出类别间差异微妙且类别内变化较大的类别。这些任务由于标注样本有限、类别间差异细微以及类别内变化显著而特别具有挑战性。现有方法主要分为三类,每类方法都针对不同的挑战方面,但仍存在某些限制。

    问题定义

    我们遵循标准的FSL设置,其中数据集按类别分为三个不相交的子集:训练集Dbase,验证集Dval,以及测试集Dte,这些集合之间没有重叠的类别。
    训练和评估阶段都遵循情节化范式。在每个情节中,我们首先从数据集中采样N个类别。对于每个类别,我们随机选择K个样本形成支持集S,以及q个不同的样本形成查询集Q
    这定义了一个N样本的

    实验结果与分析

    为了评估所提出方法的有效性,我们进行了一系列实验,旨在实现以下目标:
  • 与最新的最先进方法进行比较;
  • 评估不同设置下的分类稳定性;
  • 检查学习到的特征的区分能力;
  • 评估计算复杂性。
  • 结论

    我们提出了ATARS,这是一个统一的任务感知框架,用于少样本细粒度分类,其中TAAM提取任务级描述符,SGRM执行特征重建,TCCS在任务上下文中动态选择通道,这三个模块协同工作以优化任务特定的特征表示。在五个细粒度基准测试上的广泛实验表明,ATARS始终优于SRM。在5样本设置中,它实现了改进

    写作过程中生成式AI和AI辅助技术的声明

    在准备这项工作时,作者使用了ChatGPT来提高语言的清晰度和可读性。使用该工具后,作者根据需要对内容进行了审查和编辑,并对出版物的内容负全责。

    CRediT作者贡献声明

    小龙晓梅:写作——审阅与编辑、撰写初稿、可视化、验证、项目管理、方法论、调查、形式分析、数据管理。王新月:写作——审阅与编辑、监督、方法论、形式分析、概念化。杨成:写作——审阅与编辑、形式分析。何宗博:概念化。何倩:概念化。陈向东:写作——审阅与编辑、监督、项目管理、资金获取。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

    致谢

    本工作部分得到了国家科学技术部重点研发计划(2023YFB3210200)、四川省重点研发项目(2023YFG0062)、中央高校基本科研业务费(2682022ZTPY001)以及西南交通大学跨学科培养基金(YC1061304101001)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号