视觉概念图感知提示学习(VCGPrompt)增强视觉-语言模型在开放词汇任务中的泛化能力

【字体: 时间:2025年06月26日 来源:Pattern Recognition 7.5

编辑推荐:

  为解决视觉-语言模型(VLMs)在开放词汇任务中因数据多样性导致的过拟合和泛化不足问题,西安电子科技大学团队提出视觉概念图感知提示学习框架(VCGPrompt),通过构建细粒度视觉概念图并结合视觉概念图聚合模块(VCGAM),显著提升模型对未知场景的认知能力。实验表明,该方法在跨数据集、领域泛化等任务中性能最高提升0.95%,为开放世界场景理解提供了新思路。

  

在人工智能领域,视觉-语言模型(Vision-Language Models, VLMs)如CLIP通过大规模图文预训练展现了强大的迁移能力,但在开放词汇任务中面临严峻挑战——模型需要识别训练时从未见过的多样数据,传统方法容易陷入过拟合,导致泛化性能骤降。现有提示学习(Prompt Learning)方法如CoOp和PromptSRC虽能提升适应性,但面对复杂开放场景时,其文本提示的上下文信息仍显不足。更棘手的是,CLIP对长文本的理解能力有限,难以区分视觉相似类别。这一瓶颈严重制约了VLMs在真实开放世界中的应用价值。

针对这一难题,西安电子科技大学智能感知与计算团队提出了创新性解决方案——视觉概念图感知提示学习(Visual Concept Graph-Aware Prompt Learning, VCGPrompt)。该研究通过构建结构化视觉概念图,将基础模型(Foundation Models)中的通用世界知识转化为细粒度文本提示,使模型能精准捕捉各类别的独特视觉概念。例如在猫科动物识别中,VCGPrompt能聚焦埃及猫额头的"M"形标记特征,使分类准确率提升11%。更令人瞩目的是,在平行双杠、沙漠玫瑰等15个跨域数据集的测试中,该方法对未知类别识别准确率最高提升15%,相关成果发表于《Pattern Recognition》。

研究团队采用三大关键技术实现突破:首先利用基础模型生成类别描述文本,从中提取形容词-名词组合的视觉概念节点,构建层级化视觉概念图;其次设计视觉概念图聚合模块(VCGAM),通过可学习权重筛选最具区分度的视觉概念;最后将概念图边关系转化为多样化提示模板,增强CLIP文本编码器的语义理解能力。实验设计涵盖基类-新类泛化、跨数据集评估和领域泛化三大基准,采用Grad-CAM可视化验证特征学习效果。

方法创新性验证
通过对比CLIP原始模板、CoOp可学习提示等基线方法,VCGPrompt在ImageNet等数据集上实现平均0.95%的准确率提升。消融实验证实,细粒度提示模板对开放词汇任务至关重要——当使用完整视觉概念图时,模型在Caltech101上的新类识别准确率比单提示模板高3.2%。

跨域泛化能力
在包含遥感图像"海/湖"、体育动作"双杠"等跨域数据测试中,VCGAM模块通过加权聚合关键视觉概念,使模型在未见领域保持稳定性能。可视化分析显示,该方法能准确聚焦"沙漠玫瑰"的花蕊纹理等鉴别性特征。

计算效率优势
相比全参数微调,VCGPrompt仅训练提示相关参数,在保持CLIP原始推理速度的同时,所需显存降低72%,特别适合资源受限场景。

该研究开创性地将结构化知识表示引入提示学习领域,其构建视觉概念图的方法为多模态模型的知识注入提供了新范式。VCGAM模块通过可解释的权重分配机制,使模型具备"注意力聚焦"能力,这对医疗影像分析等需要细粒度特征辨别的场景具有重要参考价值。未来工作可探索动态概念图更新机制,进一步提升模型对持续演变开放世界的适应能力。论文通讯作者Fang Liu指出,该方法在保持轻量化的同时实现了"知识蒸馏"与"特征学习"的协同优化,为视觉-语言模型的工业落地提供了关键技术支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号