ProgCoPL:面向视觉语言模型的渐进式协同提示学习新方法

【字体: 时间:2025年10月26日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文提出了一种创新的渐进式协同提示学习(ProgCoPL)方法,通过引入联合提示生成(JPG)模块,实现了视觉与文本编码器之间的跨模态提示交互(CMPI)和层间渐进提示(ILPP),有效增强了CLIP(Contrastive Language-Image Pretraining)模型在下游任务中的适应性和泛化能力。实验表明,该方法在11个数据集上超越了现有主流方法,尤其在跨数据集泛化测试中表现突出。

  
亮点
• 我们提出了一种新颖的提示机制,能够实现视觉编码器和文本编码器之间的相互提示。这种双向提示方法增强了视觉和语言模态之间的跨模态交互,实现了更好的跨模态对齐。
• 为了解决传统提示学习中各层间提示相互独立的问题,本文设计了一种渐进式提示机制,使得提示信息能够在编码器各层之间传递和融合。通过这种层间协同,模型能够更快速、更准确地捕获任务感知信息,从而增强其对下游任务的适应能力。
• 所提出的方法在广泛的下游任务中表现异常出色,尤其展现了强大的跨数据集泛化能力。通过跨模态提示交互和层间渐进提示机制,所提出的模型在不同类型的任务和数据集上均达到了最先进的性能,表明其在处理多样化任务方面具有广阔的应用潜力。
结论与未来工作
本文探索了将CLIP模型高效适应下游任务的方法,并提出了一种名为ProgCoPL的新方法。该方法通过添加联合提示生成(JPG)模块来增强提示通路,并通过两种机制优化编码器的提示:跨模态提示交互(CMPI)和层间渐进提示(ILPP)。CMPI促进了视觉和文本编码器之间的信息相互引导,而ILPP则允许提示信息在编码器各层间逐步传递和精炼。在11个基准数据集上的大量实验表明,ProgCoPL在基础分类、领域泛化和跨数据集泛化任务中均优于现有的提示学习方法,证明了其有效性和先进性。未来的工作将探索ProgCoPL在更广泛的视觉语言任务(如图像描述、视觉问答等)中的应用,并研究如何将该方法扩展到更大的基础模型上。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号