
-
生物通官微
陪你抓住生命科技
跳动的脉搏
视觉语言模型中粗细粒度提示调优的混合方法研究
【字体: 大 中 小 】 时间:2025年07月04日 来源:Pattern Recognition 7.5
编辑推荐:
为解决视觉语言模型(VLMs)在下游任务中因样本不足导致的先验知识退化问题,研究人员提出混合粗细粒度提示调优方法(MCFPT),通过混合融合模块(MFM)和动态精配适配器(DRA)整合域共享粗粒度与类别判别细粒度特征。实验表明该方法在基类-新类泛化、少样本分类等任务中性能显著提升,为多模态模型适配提供新范式。
在人工智能多模态领域,视觉语言模型(Vision-Language Models, VLMs)如CLIP通过海量图文对比学习展现出强大的跨模态关联能力。然而当这些预训练模型迁移至下游任务时,有限的训练样本常导致"灾难性遗忘"现象——模型原有的通用知识急剧退化。传统解决方案提示调优(Prompt Tuning)虽能缓解此问题,但现有方法多局限于单一粒度:粗粒度提示模板(如"a photo of a {class}")虽保留域共享特征却忽略细节差异;细粒度提示虽聚焦类别特性但缺乏全局一致性。这种割裂严重制约模型在基类-新类泛化、少样本学习等场景的表现。
针对这一瓶颈,中国的研究团队创新性地提出混合粗细粒度提示调优方法(Mixture of Coarse and Fine-grained Prompt Tuning, MCFPT)。该方法受混合专家(Mixture of Experts, MoE)机制启发,通过大语言模型(LLM)自动生成细粒度类别描述,与人工设计的粗粒度模板形成互补。核心创新在于混合融合模块(MFM)的动态特征选择机制——两个专家适配器分别处理不同粒度特征,门控网络则智能调配两者权重。为消除分布偏移,动态精配适配器(Dynamic Refinement Adapter, DRA)通过一致性损失函数对齐混合特征与文本编码器输出。在ImageNet等11个基准数据集上的实验表明,MCFPT在基类-新类泛化任务中调和均值(HM)提升达5.2%,少样本分类准确率最高提高7.8%。
关键技术方法包括:1)利用LLM生成细粒度类别属性描述;2)MFM模块实现MoE式特征融合;3)DRA适配器进行分布精调;4)跨四个任务场景(基类-新类/少样本/域泛化/跨域)的系统验证。研究团队特别构建了包含细粒度视觉属性的文本描述库,为后续研究提供宝贵资源。
【Vision-Language Model】
研究证实CLIP等VLMs的图文对齐能力主要源自对比预训练,但直接微调会导致模态对齐偏差。MCFPT通过保持文本编码器冻结,仅优化提示嵌入来维持原始模态关系。
【Methodology】
相比基线CoOp,MCFPT新增三个组件:细粒度提示生成器自动提取类别判别特征;MFM模块中粗粒度专家保留域共享知识(如动物形态),细粒度专家捕捉局部特征(如犬科齿列差异);DRA则通过KL散度约束确保分布一致性。消融实验显示MFM和DRA分别贡献62%和28%的性能增益。
【Experiments】
在Caltech-101数据集上,MCFPT基类-新类调和均值达82.3%,显著优于CoCoOp的76.5%。跨域任务中,ImageNet预训练模型迁移至OxfordPets时,准确率提升9.1个百分点。少样本设置(16-shot)下,EuroSAT分类F1-score突破91.4%。
【Conclusion】
该研究开创性地将MoE机制引入提示调优领域,通过粗细粒度特征协同优化解决了VLMs适配中的"粒度悖论"。MFM与DRA的模块化设计为多模态模型轻量化适配提供新思路,尤其适合医疗影像等细粒度敏感场景。论文发表于《Pattern Recognition》彰显其方法论创新与工程实用价值的双重突破。
生物通微信公众号
知名企业招聘