基于任务链解耦提示学习增强视觉语言模型泛化能力的方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月04日 来源：Information Fusion 15.5

编辑推荐：

　　本文提出PLCoT框架，通过任务链构建（Chain-of-Task）、解耦提示学习（Decoupled Prompt Learning）与空间细节指导（Spatial Detail Guidance）三重机制，有效解决提示学习中的泛化困境（GDPL），在少样本学习与零样本推理任务中显著超越现有SOTA方法。

Highlight

• 引入任务链技术（Chain-of-Task）通过构建渐进式中间任务增强模型泛化能力，显著降低过拟合风险

• 在提示模块与提示交互模块上实现训练与推理的解耦（Decoupled Prompt Learning），有效缓解训练类与未见类之间的分布偏移

• 通过空间细节指导模块增强CLIP对细粒度视觉信息的理解，减少背景干扰并挖掘跨类别底层特征知识

Methodology

我们提出的PLCoT框架以可见类的图像-文本对作为输入，输出可泛化至未见类的优化提示。其核心由三个紧密协同的模块构成：

•
任务链（Chain-of-Task）：通过多模态融合构建渐进式中间任务序列，逐步缓解过拟合；
•
解耦提示学习（Decoupled Prompt Learning）：为可见类与未见类分别训练提示模块，实现最优知识共享；
•
空间细节指导（Spatial Detail Guidance）：在CLIP文本编码器后端引入空间细节提取模块，增强细粒度语义感知。

Theoretical Analysis

本节将深入探讨本方法在训练类与未见类上的泛化特性，论证基于任务链的解耦提示学习对解决提示学习泛化困境（GDPL）的理论有效性。

Experimental Settings

我们在10个基准数据集上，针对训练类预测（少样本学习）与未见类预测（基类-新类泛化与跨数据泛化）两大任务，与6种对比方法进行性能评估。默认设置任务链长度m=3（三层中间任务）与图像块数量C=30（每图像三十块）。所用数据集包括...

Conclusion

PLCoT通过任务组合、解耦提示优化与空间细节增强的统一框架，有效缓解过拟合、桥接分布差异，并在少样本监督下提升多模态对齐能力。大量实验证实其在低数据场景中的卓越性能。值得强调的是，PLCoT为提示学习与视觉语言模型（VLMs）领域提供了概念性突破。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号