
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CLIP模型小样本分类中的遗忘抑制自适应方法研究
【字体: 大 中 小 】 时间:2025年09月09日 来源:Computational and Structural Biotechnology Reports
编辑推荐:
本文针对CLIP(对比语言-图像预训练)模型在小样本分类任务中存在的"过度遗忘"问题,提出了一种遗忘抑制自适应方法(MiFA)。通过原型初始化分类层、记忆模块保留历史参数、文本特征引导更新等创新设计,实现了先验知识与特征适应的平衡,在11个数据集上验证了其有效性。
Highlight
我们的研究亮点可总结为以下三方面:
• 先验知识存储于初始化参数中,过度改变会导致知识遗忘。为解决过拟合引起的遗忘问题,我们提出用记录分类层历史信息的权重初始化新分类层,充分利用训练历史信息找到更优参数,避免过度遗忘。
• 提出用文本特征初始化分类层,并利用CLIP logits指导更新。相较于Tip-Adapter-F方法的不可更新文本分类层,我们的可更新设计能防止分类层过度受训练图像特征影响而遗忘有用文本信息。
• 在11个主流数据集上的实验证明了方法的有效性。
Pre-trained vision-language models
视觉与语言是人类感知世界的两种主要方式。由于视觉和语言信息具有互补性,多模态联合学习在视觉问答(VQA)、图像描述生成(Image Captioning)和图文检索等任务中展现出卓越效果。
Overview
我们采用CLIP预训练的冻结图像/文本编码器提取特征,使用四类分类器增强性能:CLIP零样本分类器、原型初始化分类器、历史信息初始化分类器和文本特征初始化分类器。原型初始化分类器通过样本特征构建类别原型,历史信息分类器则通过记忆模块保留训练过程中的关键参数。
Datasets
实验涵盖11个常用图像分类数据集:ImageNet、UCF101、Caltech101、SUN397、DTD、EuroSAT、Oxford Pets、Food101、Stanford Cars、Flowers102和FGVC Aircraft,其中后五个为细粒度分类数据集。
Conclusion
我们通过抑制过度遗忘的创新方法解决了CLIP模型在小样本学习中参数初始化的关键问题。与现有方法不同,采用更具鲁棒性的类别原型初始化分类层权重,并通过记忆模块保留训练历史参数,有效缓解了样本稀缺导致的过拟合问题。
生物通微信公众号
知名企业招聘