
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向多视频摘要的监督学习框架:数据集偏差消除与特征表征增强研究
【字体: 大 中 小 】 时间:2025年08月09日 来源:Neurocomputing 6.5
编辑推荐:
(编辑推荐)本文提出新型监督式多视频摘要框架,通过聚类降冗余、双标注策略构建四类数据集,结合时空特征(GLCM)与深度学习表征(3D-CNN),在Tour20数据集实现F1值0.774(较基线提升21%),有效解决现有数据集的类不平衡和主观标注问题。
Highlight
本研究提出创新性监督框架,通过整合聚类、分类与评分机制,显著提升多视频摘要质量。关键突破包括:
冗余消除:采用层次聚类(Hierarchical Clustering)合并相似片段,将候选片段集缩减63%
双标注策略:构建严格标注(Strict-Label)和宽松标注(Lenient-Label)数据集,平衡标注一致性与内容覆盖率
混合特征工程:融合I3D网络时空特征、HSV颜色直方图、灰度共生矩阵(GLCM)纹理特征,形成1280维表征向量
Computational Complexity Analysis
框架总计算复杂度为O(n2)+O(m log m),其中特征提取(3D-CNN)占主导,但通过PCA降维将维度从2048压缩至300,提速1.8倍。
Summary Evaluation
在Tour20数据集测试显示:
平均F1-score达0.774(±0.021)
关键帧召回率提升19%
冗余度降低37%(p<0.01, t-test)
Conclusion
本框架为多视频摘要领域提供三大价值:
可扩展的标注解决方案
混合特征表征范式
计算效率优化方案
未来将探索跨模态(音频-视觉)特征融合技术。
生物通微信公众号
知名企业招聘