以查询为中心的视频摘要生成方法，该方法基于句子来进行处理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Displays》：Query-focused video summarization driven by sentences

【字体：大中小】 时间：2026年02月13日 来源：Displays 3.4

编辑推荐：

　　提出基于CLIP的全局记忆Transformer（CGMT）框架，通过注意力引导优化模块（AGOM）和文本感知注意力模块（TAAM）抑制冗余信息并增强跨模态交互，在QFVS和ARS数据集上F1值分别达54.84%和69.24%，显著优于现有方法。

Kaifan Zhao|Ran Ma|Haozhe Yu|Ping An|Gongyang Li

上海大学通信与信息工程学院，中国上海200444

摘要

视频内容的重要性本质上是主观的，并且因用户而异。基于查询的视频摘要通过自然语言查询结合用户意图来生成个性化摘要。然而，现有方法大多局限于关键词级别的查询，这限制了它们对句子级语义和细粒度视频-文本对齐的建模能力，尤其是在复杂和较长的视频中。在本文中，我们提出了一种新的CLIP全局记忆变换器（CGMT）用于句子级查询导向的视频摘要。CGMT利用CLIP表示作为共享的语义空间，并引入了两个专用模块来解决现有基于CLIP的方法中的冗余问题和跨模态交互不足的问题。具体来说，注意力引导优化模块（AGOM）通过迭代细化视觉特征来抑制冗余信息并增强与查询相关的语义，而文本感知注意力模块（TAAM）实现了查询驱动的跨模态融合，从而产生了更强大和更具区分性的多模态表示。在两个基准数据集上的实验结果表明了CGMT的有效性，在QFVS上获得了54.84%的F1分数，在ARS上获得了69.24%的F1分数，并且始终优于最先进的方法。

引言

近年来，随着拍摄设备的普及和移动技术的快速发展，YouTube等视频平台上的视频内容创作显著增加。视频已成为日常生活中无处不在的数据形式。视频包含丰富的内容和各种信息，但在某些情况下，用户需要快速从视频中提取关键信息[1]。观看完整视频可能非常耗时，而视频中的冗余内容会影响用户体验[2]。与显著性检测和对象检测任务[3]、[4]、[5]类似，视频摘要旨在从高维视觉特征中识别关键视觉模式和显著的时间段，同时抑制冗余信息以实现紧凑而信息丰富的表示。因此，视频摘要技术受到了广泛关注。

目前大多数研究集中在生成通用视频摘要上，即为视频生成固定内容的摘要，例如在监控录像中快速定位可疑场景[6]、在体育赛事中生成精彩片段[7]，或者允许观众在视频分享平台上快速浏览简短的视频摘要以评估视频是否符合他们的需求[8]。然而，尽管通用视频摘要在捕获视频中的重要信息和场景方面很有效，但视频摘要本质上是一个主观任务。如果摘要内容可以根据用户的需求进行定制，考虑到他们的主观偏好，那么摘要将更加实用。用户应该能够使用自然语言描述他们希望在视频摘要中看到的内容，其中查询作为语义约束来指导显著视觉特征的选择和视频内容的压缩，类似于基于特征的显著性预测和视频压缩框架[9]、[10]。这项任务涉及将用户的主观性纳入视频帧的选择中，被称为查询导向的视频摘要。

通过众多研究人员的努力，查询导向的视频摘要取得了显著进展。然而，由于现有数据集和真实注释的局限性，大多数当前的查询导向视频摘要模型仅支持从预定义的概念集（例如“食物”和“街道”）中选择的关键词级别查询，这严重限制了用户的表达灵活性。为了解决关键词级别查询的局限性，本文研究了基于句子级自然语言查询的查询导向视频摘要。与关键词级别查询相比，句子级别查询提供了更丰富的语义结构和上下文信息，允许更精确和个性化的摘要。然而，建模句子级别查询也引入了新的挑战，因为它对视觉表示的区分能力和视觉-语言对齐的准确性提出了更高的要求。在现有方法中，从视频中提取的原始视觉特征通常包含大量冗余和不相关的信息，这阻碍了与复杂文本语义的有效对齐。此外，由于查询导向的视频摘要涉及视频和文本两种模态的融合，因此增强融合特征的表达能力和提高视觉特征与文本特征之间的对齐准确性仍然是一个具有挑战性和关键性的任务。

在本文中，我们提出了一种新的查询导向视频摘要方法，称为CLIP全局记忆变换器（CGMT）。为了提高自然语言查询的灵活性，我们使用CLIP模型[11]对视频帧和用户输入进行编码。CLIP将图像和文本映射到一个共享的嵌入空间中，确保语义相似的图像-文本对由相邻的向量表示，而不相关的则保持距离。这使得句子级自然语言查询能够检索到最相关的视频片段，超越了传统基于关键词的系统的局限性。效果如图1所示。顶部部分展示了通用视频摘要的结果，中间部分展示了使用单词级别查询时的结果，底部部分展示了使用句子级别查询获得的结果。可以观察到，单词级别查询仅提供了广泛的过滤效果，而句子级别查询显著提高了生成摘要的精确度，更好地符合用户意图并提高了检索相关性。

尽管CLIP在大规模图像-文本（视频帧-文本）对齐任务中表现出色，但其视觉特征提取过程经常受到语义冗余和分散的区域注意力的影响，这可能导致语义漂移和对齐能力下降。为了解决这些挑战，我们提出了注意力引导优化模块（AGOM），通过特征压缩和表示选择来增强视觉表示。与传统的注意力模块（如SE [12]和CBAM [13]）不同，AGOM引入了基于多层注意力的多轮语义细化策略，实现了跨多个尺度和语义层次的视觉特征的渐进式重建。这种设计抑制了冗余信息并适应性地增强了显著区域，从而产生了更紧凑和更具区分性的视觉表示。同时，尽管CLIP为视觉-语言对齐提供了坚实的基础，但其融合机制相对静态，无法充分模拟局部语义交互。为了进一步提高对齐质量，我们提出了文本感知注意力模块（TAAM），它在CLIP的嵌入空间中结合了跳跃级融合和查询引导的注意力来生成交互式特征。这些特征与视觉特征和文本特征连接在一起，并通过镜头级感知器传递以获得用于摘要生成的每个镜头的重要性分数。AGOM和TAAM共同显著提高了CLIP的语义对齐能力，同时保持了端到端的完整可训练性和模块化灵活性。

总之，本文的主要贡献如下：

我们提出了一种新的查询导向视频摘要框架CGMT，它支持灵活的句子级查询，而不是传统的关键词级别查询，以检索和突出语义相关的视频片段。实验结果表明，CGMT在查询导向视频摘要任务中表现出色。
我们引入了注意力引导优化模块（AGOM），通过多轮迭代进行渐进式语义细化。通过明确抑制冗余视觉信息并强化与查询相关的线索，AGOM能够生成针对复杂视频内容的紧凑和具有区分性的视觉表示。
我们提出了文本感知注意力模块（TAAM），它结合了跳跃级融合和查询引导的注意力，以更好地模拟模态之间的交互，使融合特征保留全局上下文和模态特定的语义，从而生成更准确和信息丰富的摘要。

部分片段

对比语言-图像预训练

Radford等人[11]通过他们的CLIP显著展示了对比学习在视觉-语言表示学习中的成功。与从具有固定标签空间的手动注释数据集中学习的传统计算机视觉模型不同，CLIP采用了一种新的范式，通过联合训练图像编码器和文本编码器来预测在从互联网收集的4亿个图像-文本对的大规模数据集中哪些字幕与哪些图像配对。

提出的方法

实验设置

（1）数据集：实验在QFVS和ARS数据集上进行。

QFVS数据集[38]广泛用于查询导向的视频摘要任务，它基于UTE数据集[55]。该数据集由四个头戴式摄像机拍摄的日常生活视频组成，每个视频时长约为三到五小时，每个视频包含46个用户查询。用户的查询来自包含48个单词的全面而丰富的词典中的两个概念。此外，该数据集还提供了密集的

结论

在本文中，我们探索了CLIP模型在查询导向视频摘要中的应用，并提出了CGMT，这是一个支持自然语言句子级查询并改善视频和文本之间跨模态理解的新的框架。鉴于像CLIP这样的大规模对齐模型在抑制冗余视觉信息和实现精确跨模态对齐方面面临的挑战，我们设计了两个新的组件：AGOM用于精细化视觉特征优化和TAAM

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（项目编号：62020106011）和上海大学科学技术计算服务中心的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号