面向多视频摘要的监督学习框架:数据集偏差消除与特征表征增强研究

【字体: 时间:2025年08月09日 来源:Neurocomputing 6.5

编辑推荐:

  (编辑推荐)本文提出新型监督式多视频摘要框架,通过聚类降冗余、双标注策略构建四类数据集,结合时空特征(GLCM)与深度学习表征(3D-CNN),在Tour20数据集实现F1值0.774(较基线提升21%),有效解决现有数据集的类不平衡和主观标注问题。

  

Highlight

本研究提出创新性监督框架,通过整合聚类、分类与评分机制,显著提升多视频摘要质量。关键突破包括:

  1. 冗余消除:采用层次聚类(Hierarchical Clustering)合并相似片段,将候选片段集缩减63%

  2. 双标注策略:构建严格标注(Strict-Label)和宽松标注(Lenient-Label)数据集,平衡标注一致性与内容覆盖率

  3. 混合特征工程:融合I3D网络时空特征、HSV颜色直方图、灰度共生矩阵(GLCM)纹理特征,形成1280维表征向量

Computational Complexity Analysis

框架总计算复杂度为O(n2)+O(m log m),其中特征提取(3D-CNN)占主导,但通过PCA降维将维度从2048压缩至300,提速1.8倍。

Summary Evaluation

在Tour20数据集测试显示:

  • 平均F1-score达0.774(±0.021)

  • 关键帧召回率提升19%

  • 冗余度降低37%(p<0.01, t-test)

Conclusion

本框架为多视频摘要领域提供三大价值:

  1. 可扩展的标注解决方案

  2. 混合特征表征范式

  3. 计算效率优化方案

    未来将探索跨模态(音频-视觉)特征融合技术。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号