
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于上下文感知双提示的复合视频检索方法Vision-by-Prompt:跨模态对齐与零样本迁移研究
【字体: 大 中 小 】 时间:2025年09月06日 来源:Pattern Recognition 7.6
编辑推荐:
本文提出了一种创新的复合视频检索(CoVR)框架,通过上下文感知双提示机制(描述性提示+目标提示)解决参考视频与修改文本的模态鸿沟问题。该方法利用预训练V-L模型(如BLIP-2)生成全局描述,结合局部目标选择网络构建动态查询,在WebVid-CoVR等数据集上实现Recall@1提升3.5%,并首次将CoVR模型零样本迁移至遥感图像检索(CoIR)领域。
Highlight
本研究突破性地采用双提示机制解决复合视频检索(CoVR)核心难题:1)全局描述性提示通过预训练视觉-语言模型(如BLIP-2)提取参考视频的文本表征;2)局部目标提示动态捕捉修改文本关注的视觉特征。这种"描述+定位"的双轨策略显著提升复杂场景(如物体移除/属性变更)下的检索精度。
Related Work
复合图像检索(CoIR)近年取得显著进展,但视频领域仍面临模态融合挑战。现有方法如伪标记生成(pseudo-word tokens)在多重物体交互场景中表现局限,而传统晚融合策略(late-fusion)易丢失视觉上下文。本工作创新性地将提示学习引入该领域。
Overview
给定参考视频vr、修改文本t和目标视频vt,我们设计轻量级查询转换器(Q-Former)生成描述性提示,同时开发目标选择映射网络提取关键视觉伪标记。两者与修改文本融合后,可直接适配现有文本-视频检索模型(如CLIP),实现端到端跨模态对齐。
Experimental Setup
在WebVid-CoVR数据集上的实验表明,我们的方法在Recall@1指标上超越基线模型3.5%。特别在涉及"将昆虫替换为熊蜂"等复杂修改任务时,双提示机制能准确保持原视频的草地-花朵上下文,同时定位待修改的生物特征。
Conclusions
该框架首次实现CoVR模型向遥感CoIR任务的零样本迁移,验证了方法的泛化能力。未来可探索提示机制在跨模态手术视频检索等医疗场景的应用,为智能诊疗提供新思路。
生物通微信公众号
知名企业招聘