基于查询的知识共享在开放词汇多标签分类中的应用
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Query-Based Knowledge Sharing for Open-Vocabulary Multi-Label Classification
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
提出查询知识共享框架,利用VLP模型多模态知识设计label-agnostic查询令牌,整合预训练知识并将排名学习转化为分类,显著提升多标签零样本识别准确率,在NUS-WIDE和Open Images数据集上mAP分别达4.2%和2.4%。
摘要
在计算机视觉中,识别训练过程中未出现过的标签(即多标签零样本学习)是一项非平凡的任务。近期研究越来越多地关注利用视觉语言预训练(VLP)模型以开放词汇表的方式识别未见过的标签。然而,诸如知识蒸馏之类的方法仅带来了适度的性能提升。如何充分利用VLP模型的潜力来实现有效的多标签零样本学习仍然是一个未解决的问题。在这项工作中,我们提出了一个先进的基于查询的知识共享框架,以探索VLP模型中的多模态知识,用于开放词汇表的多标签分类。具体来说,我们引入了一组与标签无关的查询令牌,这些令牌旨在从输入图像中捕捉关键且具有信息量的视觉特征。这些令牌随后会在所有标签之间共享,从而帮助系统选择相关的标签作为准确的识别线索。接着,通过整合VLP模型的预训练知识,这些在已知标签上训练过的查询令牌可以有效地泛化到未见标签的识别任务中。此外,我们将排名学习重新构建为一种分类形式,以便对特征向量的大小进行预测,这显著提高了标签识别的准确性。实验结果表明,我们的框架在多标签零样本学习任务中的表现优于现有最先进方法,分别在NUS-WIDE和Open Images数据集上的mAP值达到了4.2%和2.4%。代码和模型可在https://github.com/jasonseu/QKS获取。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号