用于少样本目标检测的类扩展逻辑斯蒂分布蒸馏(Class Extension Logits Distillation for Few-Shot Object Detection)
《Displays》:Class extension logits distillation for few-shot object detection
【字体:
大
中
小
】
时间:2026年01月04日
来源:Displays 3.4
编辑推荐:
针对少数样本目标检测中基础类与未现类样本严重不均衡的问题,提出类扩展逻辑 distillation(CELD)和虚拟知识参数初始化(VKPInit)。CELD通过CLIP文本编码器构建联合基础类与未现类的分类器,优化特征空间分布;VKPInit利用CELD训练的虚拟未现类分类器初始化未现类参数,减少过拟合。实验表明该方法在PASCAL VOC和MS COCO上显著优于基线方法
赵天津|邱和谦|王兰晓|戴宇|吴青波|李洪亮
中国电子科技大学信息与通信工程学院,611731,成都,中国
摘要
少样本对象检测(FSOD)旨在在大量基础类别与稀缺新类别之间存在极端数据不平衡的情况下,学习出鲁棒的检测器。虽然最近的迁移学习范式通过顺序基础类别预训练和新类别微调取得了初步成功,但其基本假设——即基础类别训练的特征编码器可以泛化到新类别实例——由于新类别的信息被抑制而暴露出关键局限性。来自CLIP等视觉-语言模型的知识蒸馏提供了有希望的解决方案,但从信息瓶颈(IB)原则的角度来看,传统的蒸馏方法存在固有缺陷:CLIP广泛的语义理解导致信息压缩率低,而特征蒸馏难以满足FSOD对高信息压缩率的需求,可能会导致检测器的信息压缩效果不佳。相反,仅使用基础类别进行对数概率值(logits)蒸馏可以增强信息压缩,但它无法保留和传递CLIP中的关键新类别语义。为了解决这些问题,我们提出了一个统一的框架,包括类别扩展对数概率值蒸馏(CELD)和虚拟知识参数初始化器(VKPInit)。在基础训练期间,CELD使用CLIP的文本编码器创建一个扩展的基础-新类别分类器。这充当了IB的角色,为基础类别和未见过的新类别提供来自CLIP视觉特征的目标分布。检测器利用其基础分类器和虚拟新类别分类器来对这些分布进行对齐,从而能够从CLIP中学习压缩后的、对新类别有感知的知识。随后,在新类别微调期间,VKPInit利用CELD中学到的虚拟新类别分类器为新类别头部提供语义信息丰富的初始化,从而减轻初始化偏差并提高对抗过拟合的能力。在PASCAL VOC和MS COCO上的广泛实验表明,我们提出的方法优于多种基线方法。
引言
少样本对象检测(FSOD)[1]、[2]、[3]、[4]解决了计算机视觉中的一个关键挑战:在数据分布高度不平衡的情况下训练鲁棒的对象检测器。在FSOD场景中,基础类别拥有丰富的训练样本,而新类别只有少量可用样本。这种严重的样本不平衡带来了学习困境:传统的联合训练范式简单地合并基础类别和新类别数据[5]、[6]来形成训练集,但由于大量基础类别样本主导了参数更新,难以为新类别学习出有区分力的特征和分类器。
与简单的联合训练策略[5]、[7](用于对象检测[5]和图像分类[8]、[9])相比,基于迁移学习的方法[3]、[4]、[10]、[11]在FSOD中脱颖而出,它们通过将特征编码器的学习和任务解码器(例如RPN、分类器、回归头)的分离,在两阶段训练流程中发挥作用:(1)基础训练:仅在丰富的基础类别样本上预训练检测器;(2)新类别微调:使用少量可用的新类别样本对检测器进行微调,主要是为了适应任务解码器。在新类别微调阶段,特征编码器通常被冻结[3]、[12],或者其学习率显著降低[4]、[10],以防止其众多参数对新类别的少量训练数据过度拟合。这种策略从根本上依赖于一个假设,即从基础类别学到的特征编码器能够充分泛化到新类别。然而,这个假设往往不够充分。基础训练期间缺乏新类别样本可能导致特征空间中的实例表示无意中拉向基础类别的质心。因此,当在新类别微调期间引入新类别时,它们被迫与基础类别共享这个预定义的特征空间,通常导致决策边界不清晰,最终导致基础类别和新类别之间的误分类。
为了缓解FSOD中的数据稀缺问题,最近的研究探索了从外部来源[4]、[13]、[14]、[15]引入知识的方法。像CLIP[16]这样的视觉-语言模型的出现,它们以可接受的成本[18]具备出色的零样本分类能力[17],为增强少样本对象检测器提供了新的机会。尽管CLIP缺乏固有的检测能力,但将其语义知识转移到对象检测器中为改进FSOD提供了有希望的途径。知识蒸馏[19]、[20]、[21]是一种成熟的知识转移技术,可以促进这一过程。典型的知识蒸馏技术包括特征蒸馏和对数概率值蒸馏。如图1(a)所示,特征蒸馏[20]、[22]涉及使用映射矩阵将学生检测器的特征嵌入与教师的特征嵌入对齐,以使学生的特征维度与教师的匹配。图1(b)显示了对数概率值蒸馏[19],它通过将最后一层的特征通过分类器矩阵来对齐教师和学生的分类分布。这两种蒸馏方法可以在相同的公式下统一起来,主要区别在于它们设计信息提取矩阵的方法,例如分类器或投影层。
从信息瓶颈(IB)原则[23]的角度进行分析,我们发现这两种从CLIP到少样本对象检测器的知识转移方法存在关键局限性,主要是由于CLIP和检测器之间的任务差异。CLIP是通过对大量互联网收集的图像-文本对中的视觉和文本表示进行对齐来训练的,使其视觉特征能够与任意的文本描述连接。这种泛化能力要求CLIP的视觉编码器与人类语言的广泛语义空间保持高互信息。因此,为了保留匹配多样化文本所需的丰富视觉信息,其视觉编码器对原始图像的信息压缩率相对较低。FSOD的目标是在预定义的、有限的基础类别和新对象类别之间进行区分。这种更集中的任务范围意味着FSOD特征编码器通常可以通过丢弃与这些特定类别无关的信息来实现更高的输入图像信息压缩率。
在尝试利用CLIP的强大视觉表示进行FSOD时,知识蒸馏策略有不同的影响。特征蒸馏旨在通过特征重建最大化检测器的映射特征与CLIP的视觉特征之间的互信息,可能会无意中传递与预定义的FSOD类别无关的语义信息。这可能会阻碍检测器实现最佳信息压缩的能力,这对于专注的FSOD任务来说是不希望的。相比之下,对数概率值蒸馏中,使用CLIP的文本特征构建的分类器作为IB,可以更有效地过滤掉与预定义类别无关的语义信息,从而减少对检测器信息压缩能力的干扰。然而,传统对数概率值蒸馏的一个关键限制是,其典型应用仅限于基础训练阶段的有标签类别(即仅基础类别)。这种做法虽然在保持基础类别的压缩的同时,无意中会导致在这个阶段丢弃CLIP视觉特征中潜在的新类别信息。因此,这可能会损害FSOD检测器随后利用CLIP视觉表示中的信息来学习新类别的泛化表示的能力。
为了解决这些限制,我们提出了类别扩展对数概率值蒸馏(CELD),这是一种新的蒸馏方法,旨在在FSOD的基础训练阶段增强特征泛化。如图1所示,CELD策略性地使用一个联合的基础-新类别分类器作为IB。这个分类器使用CLIP中的基础类别和新类别的名称构建。这个瓶颈计算出一个全面的基础-新类别概率分布,有效地消除了CLIP视觉特征中的信息冗余,同时保留了与基础类别和新类别都高度相关的信息。对于检测器本身,CELD创新地构建了一个虚拟新类别分类器,然后将其与原始的基础类别分类器集成。这个复合分类器用于计算基础和新类别的概率分布,使检测器能够以更全面的方式从CLIP中学习。CELD促进了CLIP的新类别识别能力向检测器的转移,同时确保了检测器特征编码器的信息压缩效率。
由于前景类别从基础类别扩展到新类别,在微调期间,新类别的分类器通常会被随机初始化。这种随机初始化往往导致分类器收敛到次优的局部最优解,并对新类别的有限样本过度拟合[24]。在CELD的基础上,我们进一步提出了虚拟知识参数初始化器(VKPInit),它利用从CELD中学到的虚拟新类别分类器为新分类器提供知识丰富的初始化。这种方法能够在保持对抗过拟合的同时,有效地从基础训练中继承知识。
这项工作的主要贡献有三个方面:
- •
我们提出了类别扩展对数概率值蒸馏,有效地校准了少样本对象检测的特征分布,从而提高了对新类别的泛化能力。
- •
我们提出了虚拟知识参数初始化器,以继承在类别扩展对数概率值蒸馏中学到的先验知识,从而增强了新类别分类器对抗过拟合的鲁棒性。
- •
我们在PASCAL VOC和MS COCO数据集上评估了我们的方法,结果表明我们的方法优于几种基线方法。
部分片段
通用对象检测
通用对象检测方法在数据密集型条件下运行,解决方案可以根据是否生成区域提案大致分为单阶段方法[7]、[25]、[26]和两阶段方法[5]、[6]。FSOD方法通常基于两阶段检测器Faster R-CNN[5]进行构建,并对其进行修改以适应少样本设置。检测工作流程首先由区域提案网络(RPN)生成对象区域候选者,然后是实例级别的
概述
在本节中,我们首先正式定义了任务,并回顾了第3.2节中的当前迁移学习流程,然后在第3.3节中对现有的蒸馏方法进行了系统分析。这种理论上的统一使我们能够提出我们的新类别扩展对数概率值蒸馏策略(第3.4节)。第3.5节介绍了CELD的信息瓶颈视角分析。然后我们在第
基准测试
所提出的方法在两个广泛采用的FSOD基准测试上进行了验证:
PASCAL VOC [45]是计算机视觉研究中的一个开创性数据集,包含20个基本对象类别,采用标准化的评估协议。为了评估少样本检测能力,我们实施了之前建立的类别划分策略[3]、[4]:三个预定义的分割系统地分配了5个新类别,同时保留了15个基础类别。性能指标遵循数据集的传统
讨论
虽然我们确定了文本嵌入是一个信息瓶颈,但我们目前对固定简单提示的依赖限制了这一机制的潜力。在未来的工作中,我们计划采用提示学习来进一步优化这一瓶颈。通过训练可学习的上下文令牌,我们旨在构建一个更有效的过滤器,以最大化有用的CLIP信息,同时去除不必要的噪声。这种数据驱动的方法将确保瓶颈更好地适应
结论
这项工作朝着减轻特征空间偏差和提高少样本对象检测(FSOD)的泛化能力迈出了一步。我们提出了类别扩展对数概率值蒸馏(CELD),这是一种新方法,它受到信息瓶颈原则的指导,使学生检测器能够在基础训练期间学习一个适应基础类别和未见过的新型类别的特征空间,利用CLIP的全面语义知识。CELD有效地传递了关键的新类别信息,同时
未引用的参考文献
[47]、[49]、[50]、[51]、[52]、[54]、[55]、[56]、[57]
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号