CASP:基于CLS令牌注意力引导提示的少样本类增量学习方法
《Pattern Recognition》:CASP: Few-Shot Class-Incremental Learning with CLS Token Attention Steering Prompts
【字体:
大
中
小
】
时间:2026年02月17日
来源:Pattern Recognition 7.6
编辑推荐:
少样本类增量学习通过预训练主干网络和任务特定提示,结合对称提示注入、注意力扰动和混合增强策略,有效缓解灾难性遗忘和过拟合问题,在CUB200、CIFAR100和ImageNet-R数据集上达到最优性能且无需微调。
黄帅|林旭涵|卢宇武
华南师范大学人工智能学院,佛山,528225,中国
摘要
少样本类增量学习(FSCIL)在持续学习中提出了一个核心挑战,要求模型在样本非常有限的情况下快速适应新类别,同时减轻灾难性遗忘。最近基于提示的方法通过将预训练的模型与特定任务的提示相结合,取得了显著进展。然而,在极端的少样本增量环境下,模型的迁移和泛化能力变得至关重要,因此利用预训练的知识来学习可以在后续类别中共享的特征表示是必不可少的。受到CLS令牌机制的启发,该机制类似于人类注意力,逐步过滤掉与任务无关的信息,我们提出了CLS令牌注意力引导提示(CASP)。这种方法将类共享的可训练偏差参数引入CLS令牌的查询、键和值投影中,以显式调节自注意力权重。为了进一步提高泛化能力,我们还设计了一种注意力扰动策略,并在浅层特征空间中执行流形令牌混合(Manifold Token Mixup),合成潜在的新类别特征,以改善泛化能力并为即将到来的任务保留表示能力。在CUB200、CIFAR100和ImageNet-R数据集上的实验表明,CASP在标准和细粒度FSCIL设置中均优于现有方法,且在增量阶段无需微调,同时显著降低了参数开销。
引言
人类大脑在识别新概念方面表现出独特的熟练度:能够在样本非常有限的情况下有效学习,同时保留先前获得的知识。当前的研究主要集中在通过两种主要范式来模仿人类学习系统:少样本学习(FSL)[1]、[2]和类增量学习(CIL)[3]、[4]、[5]、[6]、[7]。然而,在面对少样本类增量学习(FSCIL)[8]、[9]、[10]、[11]、[12]中这两种范式的结合挑战时,现有方法在泛化到新概念或减轻基础知识的灾难性遗忘方面经常遇到重大限制,主要是由于新类别的训练样本极其稀缺。
CIL和FSCIL都面临着灾难性遗忘[13]这一根本挑战。此外,FSCIL特别容易过拟合[8]:模型倾向于记住来自有限新样本的表面模式,而不是学习可迁移和具有区分性的特征,最终导致在新获取的类别和先前学习的类别上的性能下降。最近基于提示的方法[3]、[4]、[5]在CIL中取得了显著成功,这些方法在获取特定任务提示的同时保持固定的预训练模型。然而,它们直接应用于FSCIL的效果并不理想。关键-查询匹配机制在增量阶段通常在数据稀缺时表现不佳,无法为新任务学习有效的提示。此外,提示池的计算开销太大,无法与高效适应相兼容。尽管现有研究已经证明了添加性提示[6]优于传统的输入连接方法,但这种架构设计仍不能满足FSCIL的需求,因为它缺乏增强特征泛化和为未来任务结构化特征空间的机制。
这一挑战带来了一个基本的见解:人类认知表现出选择性注意能力[14],在处理大量信息时逐步忽略无关细节,专注于最显著的特征。这种能力使得即使在样本极度受限的情况下也能快速识别和获取新概念。为了模仿复杂的人类学习机制,我们为FSCIL引入了CLS令牌注意力引导提示(CASP),这是一个精心设计的新型框架,以满足严格的FSCIL要求。CASP整合了三项关键创新,将添加性提示转化为一种高效且有效的FSCIL范式。首先,对称提示注入将添加性机制扩展到同时调节CLS令牌的查询、键和值投影,允许更全面地重新校准自注意力机制,并增强模型从少样本实例中提取和放大最具区分性特征的能力。其次,注意力随机扰动引入了一种有针对性的dropout[15]策略,随机扰动被提示的CLS令牌的注意力权重,作为一种强大的正则化器,模拟噪声并鼓励模型学习更通用和稳定的决策边界,从而显式对抗过拟合并增强鲁棒性。最后,结合了流形令牌混合(MTM)以促进更平滑的决策边界和更结构化的潜在特征空间,这不仅提高了泛化能力,还为未来类别隐式保留了表示能力,减少了特征纠缠,并为持续的增量学习做好了准备。
通过在标准FSCIL基准测试集(CUB200 [16]、CIFAR100 [17]和ImageNet-R [18])上的全面实验,我们证明了CASP在增量阶段无需微调即可达到最先进的性能。我们的分析证实,CASP有效减轻了遗忘,对抗了过拟合,并在学习结构良好的特征空间的同时保持了高参数效率。总之,我们的贡献如下:
•我们提出了CASP框架,这是一个新的框架,它在查询、键和值投影中实现了对称提示注入,以增强从有限样本中的特征适应。
•我们结合了两种新的正则化器:注意力dropout以提高鲁棒性,以及流形令牌混合(Manifold Token Mixup)以巩固结构化的特征空间。
•我们通过广泛的实验实证证明了CASP的优越有效性,在多个基准测试中取得了新的最先进结果,同时所需的参数更少,并且在增量阶段无需微调。
本文的其余部分如下:第2节介绍了关于少样本类增量学习、基于提示的方法和基于混合的增强技术的相关研究。第3节详细介绍了我们提出的方法。第4节概述了实验设置并展示了验证我们提出方法有效性的结果。第6节总结了这项工作。
章节片段
少样本类增量学习
FSCIL比传统的类增量设置更具挑战性,因为它需要从每个类别的少量标记样本中连续整合新类别。FSCIL范式最初由TOPIC [8]提出,并引入了一个标准化基准测试,其中模型首先在一个全面的基类集上进行训练,然后学习一系列任务,每个任务包含数据严重有限的新类别。
问题定义
FSCIL的目标是使模型能够从一系列学习会话中持续获取知识,每个任务都包含有限的标记示例。在训练会话t期间,只能访问当前的数据集,而之前会话的数据完全不可用。目标是在有效学习新类别的同时,在所有先前遇到的类别中保持高性能。
正式地,每个会话的数据集表示为
提出的方法
CLS令牌在ViT架构[39]中的特殊作用表明,增强CLS令牌表示的区分性和泛化能力对于有效的FSCIL至关重要。为此,我们提出了一种新的添加性提示调整框架,从三个互补方面加强CLS令牌的表示能力:针对CLS令牌的注意力引导提示、跨域添加性提示以及特征空间保留
实验配置
在本节中,我们提供了所提出方法的验证过程的详细描述。实验数据来自三个广泛使用的计算机视觉数据集:CUB200 [16]、CIFAR100 [17]和ImageNet-R [18]。在整个研究中,我们严格遵循该领域的标准实验配置[30]、[32]和分割协议,将数据集分为基础类和增量类,以适应FSCIL场景。
结论
为了提高FSCIL中的特征泛化和区分能力,我们提出了一个基于提示的框架CASP。该框架采用对称提示注入机制,引导模型关注关键特征,同时结合注意力扰动和流形令牌混合策略进一步提高鲁棒性。在包括CUB200、CIFAR100和ImageNet-R在内的多个基准数据集上的实验结果表明,CASP取得了最佳性能。
CRediT作者贡献声明
黄帅:撰写 – 审稿与编辑,撰写 – 原始草稿。林旭涵:撰写 – 原始草稿。卢宇武:撰写 – 审稿与编辑,监督。
利益冲突声明
我们声明与可能不恰当地影响我们工作的其他人或组织没有财务和个人关系,对于任何产品、服务和/或公司没有专业或其他形式的个人利益,这些利益可能会影响题为“CASP:使用CLS令牌注意力引导提示的少样本类增量学习”的手稿中的观点或评审。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号