基于语言引导的图表示学习在视频摘要中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Pattern Analysis and Machine Intelligence》：Language-Guided Graph Representation Learning for Video Summarization

【字体：大中小】 时间：2025年11月25日 来源：IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6

编辑推荐：

　　视频摘要面临全局依赖捕捉不足和用户定制适配困难等问题，LGRLN方法通过构建包含前向、后向和双向关联的视频图结构，设计双重阈值图卷积模块优化语义关联，结合语言引导的跨模态嵌入实现描述性摘要生成。实验验证其优于基线方法，且模型参数减少91.7%。

摘要：

随着社交媒体上视频内容的快速增长，视频摘要生成已成为多媒体处理中的关键任务。然而，现有方法在捕捉视频内容的全局依赖关系以及满足多模态用户定制需求方面面临挑战。此外，视频帧之间的时间邻近性并不总是与语义邻近性相对应。为了解决这些问题，我们提出了一种新型的语言引导图表示学习网络（Language-guided Graph Representation Learning Network，简称LGRLN）用于视频摘要生成。具体来说，我们设计了一种视频图生成器，该生成器将视频帧转换为结构化图，以保留时间顺序和上下文依赖关系。通过构建正向图、反向图和无向图，视频图生成器有效地保持了视频内容的顺序性和上下文关联性。我们设计了一个图内关系推理模块，该模块采用双阈值图卷积机制来区分节点之间的语义相关帧和无关帧。此外，我们提出的语言引导跨模态嵌入模块能够生成包含具体文本描述的视频摘要。我们将摘要生成结果建模为伯努利分布的混合模型，并使用EM算法进行求解。实验结果表明，我们的方法在多个基准测试中优于现有方法。此外，我们提出的LGRLN将推理时间和模型参数分别减少了87.8%和91.7%。我们的代码和预训练模型可在以下链接获取：https://github.com/liwrui/LGRLN。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号