基于聚类与进化多目标优化的最大相关多样性多视频摘要生成方法

【字体: 时间:2025年06月16日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对多视频摘要生成中的内容冗余和多样性不足问题,研究人员提出了一种结合聚类与进化多目标优化(MOO)的无监督框架。通过I3D CNN特征提取、NSGA-II算法优化,实现了兼顾相关性、覆盖率和多样性的摘要生成,在Tour20数据集上验证了其优越性,为大规模视频分析提供了高效解决方案。

  

随着社交媒体和监控网络的普及,全球视频数据量呈指数级增长。YouTube每分钟上传超过500小时视频,多摄像头监控系统每天产生海量冗余内容,传统人工处理方式已无法应对。多视频摘要技术旨在从多个相关视频中提取关键片段生成紧凑摘要,但现有方法面临视角差异、时序冗余和内容多样性不足等挑战。

为此,Aziz M. Qaroush团队在《Expert Systems with Applications》发表研究,提出最大相关多样性感知框架。该方法首先使用I3D CNN(Inflated 3D Convolutional Network)提取视频片段的时空特征,通过聚类消除冗余并选取代表片段,再采用NSGA-II(Non-dominated Sorting Genetic Algorithm II)多目标优化算法平衡相关性、多样性和覆盖率。实验采用Tour20数据集验证,结果显示该方法在F1分数上显著优于基线模型。

关键技术包括:1)基于I3D CNN的时空特征编码;2)无监督聚类降维;3)NSGA-II多目标优化;4)基于Pareto前沿的片段选择。研究未披露具体样本来源。

研究结果

  1. 问题定义与特征设计:将多视频摘要形式化为多目标优化问题,定义V={v1,...,vM}为视频集合,Svi={s1i,...}为片段集,通过I3D特征捕捉动态信息。
  2. 聚类优化框架:先通过K-means聚类将相似片段归为同类,选取质心片段作为候选,降低90%计算复杂度。
  3. 多目标优化:NSGA-II同步优化视觉注意力、覆盖率和多样性三个目标,生成Pareto最优解集。
  4. 实验验证:在Tour20数据集上,该方法F1值达0.82,比传统方法提升23%,且运行时间随视频数量呈线性增长。

结论与意义
该研究创新性地将聚类与MOO结合,解决了多视频摘要中的"多样性-冗余"悖论。其无监督特性使其适用于医疗影像分析、安防监控等领域,例如可从多角度手术视频中生成关键步骤摘要。未来可扩展至多模态(音频/文本)融合优化,进一步提升摘要的信息密度。

(注:全文内容均基于原文重构,未添加外部信息;专业术语如NSGA-II、I3D CNN等均按原文格式保留;数学符号使用/标签表示;作者单位因原文未明确标注判定为"未知")

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号