基于任务链解耦提示学习增强视觉语言模型泛化能力的方法研究

【字体: 时间:2025年10月04日 来源:Information Fusion 15.5

编辑推荐:

  本文提出PLCoT框架,通过任务链构建(Chain-of-Task)、解耦提示学习(Decoupled Prompt Learning)与空间细节指导(Spatial Detail Guidance)三重机制,有效解决提示学习中的泛化困境(GDPL),在少样本学习与零样本推理任务中显著超越现有SOTA方法。

  
Highlight
• 引入任务链技术(Chain-of-Task)通过构建渐进式中间任务增强模型泛化能力,显著降低过拟合风险
• 在提示模块与提示交互模块上实现训练与推理的解耦(Decoupled Prompt Learning),有效缓解训练类与未见类之间的分布偏移
• 通过空间细节指导模块增强CLIP对细粒度视觉信息的理解,减少背景干扰并挖掘跨类别底层特征知识
Methodology
我们提出的PLCoT框架以可见类的图像-文本对作为输入,输出可泛化至未见类的优化提示。其核心由三个紧密协同的模块构成:
  • 任务链(Chain-of-Task):通过多模态融合构建渐进式中间任务序列,逐步缓解过拟合;
  • 解耦提示学习(Decoupled Prompt Learning):为可见类与未见类分别训练提示模块,实现最优知识共享;
  • 空间细节指导(Spatial Detail Guidance):在CLIP文本编码器后端引入空间细节提取模块,增强细粒度语义感知。
Theoretical Analysis
本节将深入探讨本方法在训练类与未见类上的泛化特性,论证基于任务链的解耦提示学习对解决提示学习泛化困境(GDPL)的理论有效性。
Experimental Settings
我们在10个基准数据集上,针对训练类预测(少样本学习)与未见类预测(基类-新类泛化与跨数据泛化)两大任务,与6种对比方法进行性能评估。默认设置任务链长度m=3(三层中间任务)与图像块数量C=30(每图像三十块)。所用数据集包括...
Conclusion
PLCoT通过任务组合、解耦提示优化与空间细节增强的统一框架,有效缓解过拟合、桥接分布差异,并在少样本监督下提升多模态对齐能力。大量实验证实其在低数据场景中的卓越性能。值得强调的是,PLCoT为提示学习与视觉语言模型(VLMs)领域提供了概念性突破。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号