VSCode-V2：通过两阶段优化实现通用视觉显著目标和伪装目标检测的动态提示学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Pattern Analysis and Machine Intelligence》：VSCode-V2: Dynamic Prompt Learning for General Visual Salient and Camouflaged Object Detection With Two-Stage Optimization

【字体：大中小】 时间：2025年11月25日 来源：IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6

编辑推荐：

　　VSCode-v2通过引入混合提示专家层(MoPE)和两阶段训练优化视觉语义分割与隐蔽物体检测任务，结合知识蒸馏和对比学习机制提升多模态处理能力，在六项任务中实现性能平衡提升，并具备零样本泛化至RGB-D视频分割等新任务的能力。

摘要：

显著对象检测（SOD）和伪装对象检测（COD）是相关但不同的二值映射任务，它们都涉及多种模态，这些模态具有共同点同时也保持独特的特性。现有的方法通常依赖于复杂的、针对特定任务的架构，这导致了冗余性和泛化能力有限。我们之前的工作VSCode引入了一个通用模型，能够有效处理四种SOD任务和两种COD任务。VSCode以VST作为基础模型，并在编码器-解码器框架中加入了2D提示，以捕获领域和任务特定的知识，利用提示区分损失来优化模型。在之前工作VSCode的有效性的基础上，我们通过针对模型设计和优化策略的改进，找到了进一步提升泛化能力的方法。为了实现这一目标，我们提出了VSCode-v2，该扩展引入了“提示专家混合层”（MoPE）来生成自适应提示。我们还将训练过程重新设计为两阶段：首先学习跨任务的共享特征，然后捕获特定特征。为了在这个过程中保留知识，我们采用了来自会议版本模型的蒸馏技术。此外，我们提出了一种结合数据增强的对比学习机制，以加强提示与特征表示之间的关系。VSCode-v2在六种SOD和COD任务中展示了平衡的性能提升。而且，VSCode-v2能够有效处理多种多模态输入，并具备对新任务的零样本泛化能力，例如RGB-D视频SOD。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号