RETTA:一种基于检索技术的测试时自适应方法,用于零样本视频字幕生成
《Pattern Recognition》:RETTA: Retrieval-enhanced test-time adaptation for zero-shot video captioning
【字体:
大
中
小
】
时间:2025年07月25日
来源:Pattern Recognition 7.6
编辑推荐:
零样本视频描述框架RETTA融合XCLIP、CLIP、AnglE和GPT-2,通过可学习令牌传递视频信息并优化生成,无需标注数据即可在16次迭代内提升CIDEr 5.1%-32.4%。
视频描述生成(Video Captioning)是一种将视频内容转换为自然语言描述的任务,是视觉语言交叉领域中的重要研究方向。这项任务在多个应用场景中具有重要价值,如视频标题生成、视觉辅助系统以及视频检索等。传统方法通常需要大量的标注数据进行训练,这不仅成本高昂,而且在某些实际场景中难以实现。因此,研究如何在没有标注数据的情况下实现视频描述生成,即零样本(zero-shot)视频描述生成方法,成为当前研究的热点。
尽管全监督方法在视频描述生成领域取得了显著进展,但零样本方法仍然鲜有研究。本文提出了一种全新的零样本视频描述生成框架,名为“Retrieval-Enhanced Test-Time Adaptation (RETTA)”。该框架利用现有的预训练大规模视觉与语言模型,通过测试时适应(test-time adaptation)直接生成视频描述。RETTA框架的核心在于利用四个关键模型:一个通用的视频-文本检索模型XCLIP,一个通用的图像-文本匹配模型CLIP,一个文本对齐模型AnglE,以及一个文本生成模型GPT-2。这些模型因其源代码的可用性而被选中,能够为视频描述生成任务提供多方面的支持。
RETTA框架的主要挑战在于如何使文本生成模型(如GPT-2)充分理解视频内容,并据此生成相应的描述。为了解决这一问题,我们提出使用可学习的标记(learnable tokens)作为这些冻结模型之间的信息传递媒介。不同于传统的基于训练数据来训练这些标记的方法,我们采用基于推理数据的软目标(soft targets)来学习这些标记,使得这些标记能够吸收适合GPT-2的视频信息。这种适应过程仅需少量的迭代(例如16次),并且不需要真实的标注数据,从而降低了对训练数据的依赖。通过在MSR-VTT、MSVD和VATEX三个广泛使用的数据集上进行的大量实验,我们发现RETTA框架在CIDEr评分上比几种现有的零样本视频描述生成方法分别提高了5.1%至32.4%。
在介绍RETTA框架之前,我们回顾了视频描述生成领域的相关研究。当前的视频描述生成方法通常需要全监督训练,即每个视频至少需要10个参考描述。这种方法虽然在生成质量上表现优异,但标注成本高,限制了其在实际应用中的普及。为了解决这一问题,零样本方法应运而生,它们减少了对昂贵人工标注的依赖,尤其适用于标注数据稀缺的场景。然而,现有的零样本方法在处理多模态任务时表现不佳。例如,在基于检索的生成(Retrieval-Augmented Generation, RAG)方法中,通常使用问题作为查询,检索相关文本信息,并将其作为前缀输入到预训练语言模型(PLM)中,以生成更准确的回答。但在视频描述生成任务中,直接使用视频作为查询,会使得检索到的文本与通用提示(如“video showing”)之间的语义关联较弱,从而影响PLM生成预期结果的能力。此外,提示工程本身就是一个具有挑战性的任务,而将多种检索文本纳入考虑则更加复杂。
为了解决上述问题,我们提出使用可学习标记作为连接不同预训练模型的桥梁。这些标记在推理过程中通过任务损失函数的梯度信号进行更新,其作用是将视频特定信息传递给PLMs,并指导其生成符合视频内容的描述。为了提高适应效率,我们采用基于软目标的推理过程,避免了传统软提示训练的繁琐步骤。通过这种方式,冻结的预训练模型能够快速适应视频描述生成任务,从而实现零样本的应用。我们设计了两种损失函数,以优化这些可学习标记,使生成的文本与视频内容保持高度一致。一种损失函数关注生成文本与检索结果之间的匹配度,另一种则关注生成文本与视频中高频词之间的对齐情况。这些优化过程在自回归生成的每一步骤中进行,以确保生成的句子与视频内容的紧密联系。
在推理阶段,我们采用测试时学习(test-time learning)策略,仅使用训练集的文本语料库来检索描述候选。通过结合检索到的描述,我们生成软目标,从而指导GPT-2生成更准确的文本。为了提高生成文本的流畅性和相关性,我们还设计了一种简单的句子清理策略,包括两个步骤:提取句子中的关键元素(如动词和名词)以及使用预训练的关键词句模型CommonGen来重构这些元素为更连贯的句子。CommonGen是一种先进的受限文本生成模型,其输入是关键词(如“knife”、“chopping”、“onion”和“kitchen”),输出是一个更自然的句子,如“a man is chopping onions with a knife in a kitchen”。最后,清理后的句子被用作最终的输出结果。
为了验证RETTA框架的有效性,我们在MSR-VTT、MSVD和VATEX三个公开基准数据集上进行了广泛的实验。实验结果显示,RETTA在这些数据集上均优于现有的零样本视频描述生成方法。在MSVD数据集上,RETTA的CIDEr评分为49.8,比之前的最佳结果高出32.4%;在MSR-VTT数据集上,CIDEr评分提升了30.6%;而在VATEX数据集上,CIDEr评分提升了27.3%。这些结果表明,RETTA框架在零样本视频描述生成任务中具有显著的优势。
在实验部分,我们还讨论了不同模型选择和参数设置对性能的影响。例如,我们采用CLIP作为视觉特征提取器,GPT-2作为文本生成器,XCLIP作为视频-文本检索器,AnglE作为文本对齐器。这些模型均具有良好的零样本表现,参数量适中,易于部署,并且适合集成到统一系统中进行协作使用。在参数设置方面,我们采用固定采样率(3 FPS)来选择视频帧,同时结合CLIP的相似度阈值(0.9)进行冗余过滤,以确保关键视觉内容不被遗漏。此外,我们还讨论了可学习标记数量、检索句子数量、词频大小等参数对模型性能的影响,并通过消融实验(ablation study)进一步验证了这些参数的选择。
RETTA框架在效率和性能之间实现了良好的平衡。尽管其推理时间略长于其他零样本方法(如EPT),但其CIDEr评分显著优于EPT(23.8 vs. 8.9)。因此,RETTA更适合在对推理时间不敏感的场景中使用,如离线批量处理。相比之下,DeCap-CC3M在推理时间上更为高效(0.1秒/样本),但其训练成本较高(约25,197秒)。因此,在需要低推理延迟的场景中,DeCap-CC3M可能更为合适,而在可以接受较高训练成本的场景中,RETTA则提供了更优的生成质量。
此外,RETTA框架不仅适用于视频描述生成,还能够扩展到零样本图像描述生成任务中。通过将XCLIP替换为CLIP,我们可以在图像描述生成任务中实现类似的效果。在MS-COCO数据集上的实验结果显示,RETTA在CIDEr评分上优于几种现有的零样本图像描述生成方法,如ZeroCap和EPT。这表明RETTA框架在不同模态的描述生成任务中均具有广泛的应用潜力。
在定性结果方面,我们展示了RETTA生成的视频描述的详细例子。例如,在一个视频中,两位男子正在打乒乓球,RETTA生成的描述为“两个男孩在乒乓球馆打乒乓球”,而其他方法可能生成更笼统的描述,如“A man is riding a motorcycle”。这些结果进一步验证了RETTA框架在零样本描述生成任务中的有效性。
综上所述,本文提出的RETTA框架在零样本视频描述生成任务中表现优异。通过引入可学习标记和精心设计的损失函数,RETTA实现了对视频内容的高效理解和描述生成。未来的研究可以进一步探索如何构建更大规模和更丰富的语料库,以提升模型的描述能力。此外,RETTA框架还可以扩展到跨领域视频描述生成任务中,以增强其在更广泛跨模态理解场景中的泛化能力。我们相信,RETTA框架的提出将为视频描述生成领域的研究提供新的思路,并有望在实际应用中发挥重要作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号