利用视觉-语言模型和混合优化技术进行多视频摘要生成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Multi-Video Summarization with Vision-Language Models and Hybrid Optimization

【字体：大中小】 时间：2026年02月19日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　多视频摘要框架提出利用视觉语言模型（CLIP、X-CLIP、mPLUG）生成跨模态嵌入，结合两阶段聚类策略与混合遗传算法优化，在Tour20数据集上验证优于传统方法。

Aziz M. Qaroush|Abdelrahman Hamza|Ahmad Eiss|Yousef Hatem

电气与计算机工程系，比尔宰特大学，拉马拉，14，巴勒斯坦

摘要

来自各种来源的视频数据呈指数级增长，这加剧了对可扩展且具有语义理解能力的多视频摘要技术的需求。传统方法主要依赖于手工制作的视觉描述符或从3D卷积神经网络（3D CNN）和长短期记忆（LSTM）网络中提取的深度时空特征。尽管这些方法在建模视觉和时间模式方面有效，但它们往往难以捕捉高层次的语义内容，并且通常需要大量的标注数据集来进行特定任务的训练。本文介绍了一个新颖的摘要框架，该框架利用视觉语言模型（VLMs）——特别是CLIP、X-CLIP和mPLUG——在零样本设置中生成丰富的跨模态嵌入，从而增强跨视频类型和语言的语义理解和迁移能力。为了解决候选片段之间的冗余问题，我们评估了三种基于聚类的策略，强调了一种结合局部敏感性和全局多样性的两阶段方法。摘要生成任务被构建为一个受限优化问题，并使用结合了模拟退火（GA-SA）的混合遗传算法来解决，从而提高了收敛性和摘要质量。在Tour20数据集上的实验结果表明，所提出的框架具有优越性，其中CLIP模型结合两阶段聚类获得了最高的F1分数0.760，而X-CLIP则获得了最佳的精确度，这证实了VLMs在多视频摘要中的有效性。

引言

数字设备和在线平台的迅速普及导致视频内容呈指数级增长，这对用户和计算系统来说都是一个巨大的挑战，因为它们需要有效地处理和解释这些信息[1]。手动检查大规模视频集合不仅劳动密集，而且在实际场景中也不可行，这突显了自动视频摘要解决方案的必要性[2]。这些技术提供了显著的优势，包括减少观看时间、降低存储需求和最小化带宽消耗。此外，自动摘要在许多应用中发挥着关键作用，例如高效视频检索[3]、监控系统中的智能内容浏览[4]、教育资源管理和大规模媒体分析[5]。

视频摘要被正式定义为生成视频的紧凑且信息丰富的表示，其目标是保留视频中最显著的内容和关键事件，以便于高效理解和导航[6]。现有的方法通常分为两类：提取式方法，从原始视频中识别和选择重要帧或片段；以及抽象式方法，基于对视频的语义理解合成新内容——通常是文本形式[7]。摘要可以应用于单个视频，也可以扩展到多个相关视频，即多视频摘要。后者带来了额外的挑战，如管理视频之间的冗余、协调不同的视角和视觉上下文，以及在组合摘要中保持语义一致性[8]。

早期的多视频摘要方法主要依赖于手工制作的全局视觉描述符，如颜色直方图，以及从基于SIFT的视觉词袋（VBoW）[9]中提取的局部特征。虽然这些方法在一定程度上有效，但它们无法泛化到不同的内容。为了解决这些限制，后续的研究利用了从预训练的卷积神经网络（CNN）中提取的深度特征，这些特征提供了更好的抽象能力和鲁棒性。更近期的进展结合了3D CNN、CNN-LSTM混合体和基于注意力或变换器的架构，从而增强了建模视频内部时间依赖性和视觉语义的能力。尽管有这些改进，现有方法仍然严重依赖于视觉内容，往往难以捕捉高层次的语义理解。此外，它们通常需要大量的标注数据集和特定任务的训练，这限制了它们的可扩展性和跨领域的适应性。

相比之下，视觉语言模型（VLMs）通过在一个共享的嵌入空间中对齐视觉和文本模态，代表了一个重要的范式转变[10]。这些模型在大规模图像-文本或视频-文本语料库上进行了训练，例如CLIP[11]、X-CLIP[12]和mPLUG[13]——能够在零样本或少量样本的情况下捕捉丰富的跨模态关联并编码高层次的语义内容。这消除了对劳动密集型注释的依赖，减少了对领域特定微调的需求，同时增强了跨异构视频源的泛化能力[14]。尽管VLMs在图像-文本检索和视频分类等任务中取得了相当大的成功，但它们在多视频摘要方面的潜力尚未得到充分探索。

在这项工作中，我们提出了一个新颖的摘要框架，该框架利用了最先进的VLMs——特别是CLIP、X-CLIP和mPLUG——的语义能力来生成丰富的片段级表示。这些嵌入使得更深层次的语义理解和更有效的冗余减少成为可能。我们将这些模型与广泛采用的基于3D CNN的时空表示方法进行了基准测试，以实证验证它们的优势。为进一步解决视频之间的冗余问题，我们评估了三种基于聚类的策略来选择代表性片段。对于摘要生成，我们引入了一种结合了模拟退火和遗传算法的混合优化方法，旨在满足摘要长度限制的同时提高收敛速度、多样性和相关性。本文的主要贡献总结如下：

•

我们提出并验证了使用先进的VLMs进行语义丰富且稳健的视频片段表示的方法，提高了多视频摘要的有效性。

•

我们引入了一种新颖的两阶段聚类策略，用于高效地识别和减少多样化视频集合中的冗余。

•

我们开发了一个结合了模拟退火和遗传算法的混合优化框架，以生成多样且信息丰富的摘要，同时遵守预定义的长度限制，并提高收敛效率。

•

我们对所提出的方法进行了全面的效率分析，包括理论时间复杂性和实证收敛行为。

•

我们在Tour20数据集上进行了广泛的评估，证明我们的方法在摘要质量（通过平均F1分数衡量）和计算效率方面都超过了现有的最先进方法。

本文的其余部分结构如下。第2节提供了与多视频摘要技术相关的现有文献的全面回顾。第3节详细描述了所提出的方法，概述了开发框架的每个组成部分。第4节分析了该方法的计算效率，特别关注其时间复杂性。第5节详细介绍了实验设置，报告了获得的结果，并提供了全面的性能评估。最后，第6节总结了关键发现和贡献，并指出了未来研究的有希望的方向。

工作流程

所提出的多视频摘要方法包括五个关键阶段，如图1所示。过程从均匀采样开始，其中从每个视频中以固定间隔提取帧，以确保一致的时间覆盖同时降低计算成本。接下来是视频分割，将采样的帧分组为固定长度的片段，为下游处理提供结构化的时间单元。在片段表示阶段，每个

总体时间复杂性分析

所提出的多阶段视频摘要框架包括五个计算阶段：均匀采样、基于帧差异的分割、片段表示生成、两阶段聚类以及使用遗传算法（GA）的优化。每个阶段都从其时间复杂性方面进行了分析，它们的贡献结合起来构成了系统的总体复杂性。在均匀采样阶段，每个视频被扫描，每帧选择一帧。

评估方法

为了评估所提出的摘要框架的有效性，我们采用了与先前工作[22]、[40]一致的标准化评估协议。核心思想是定量评估系统生成的摘要与人类注释的真实摘要之间的重叠程度。设

S_{sys} ? M

表示系统选择的片段集合，设

S_{gt}^{u}

表示用户∈?{1, 2, 3}提供的真实摘要，如Tour20数据集中定义的。一个片段

{\overset{?}{s}}_{i} \in S_{sys}

被视为

结论与未来工作

本研究提出了一个新颖且全面的多视频摘要框架，该框架利用了先进的视觉语言模型（VLMs）——包括CLIP、X-CLIP和mPLUG——的语义丰富性，克服了传统基于视觉和时空特征的方法的局限性。所提出的工作流程包括均匀采样、片段级分解、使用零样本VLM嵌入进行语义表示、通过专门的两阶段聚类策略减少冗余

CRediT作者贡献声明

Aziz M. Qaroush：撰写 – 审稿与编辑，撰写 – 原始草稿，验证，监督，软件，方法论，调查，形式分析，概念化。Abdelrahman Hamza：验证，软件，方法论。Ahmad Eiss：验证，软件，方法论。Yousef Hatem：验证，软件，方法论。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

作者感谢使用OpenAI ChatGPT进行语法修订并提高本文的语言质量。在使用该工具后，作者仔细审查和编辑了内容，以确保其准确性、与研究目标的符合性以及符合学术标准。作者对本文的最终内容负全责。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作