
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自监督提案生成与跨模态融合的体育视频时序事件定位方法研究
【字体: 大 中 小 】 时间:2025年06月16日 来源:Intelligent Systems with Applications CS5.6
编辑推荐:
推荐:针对长体育视频中文本查询的时序定位难题,研究人员提出了一种结合自监督提案生成与跨模态融合的两阶段方法。通过视频中心采样策略和缓存机制提升长视频处理效率,采用混合融合策略实现粗粒度检索与细粒度对齐,在NBA-NSVA和THUMOS14数据集上取得SOTA性能,为体育视频分析提供了高效精准的解决方案。
体育视频中精彩瞬间的快速定位一直是计算机视觉领域的挑战。传统方法在短视频上表现良好,但面对长达数小时的体育比赛视频时,存在计算效率低、事件稀疏性显著、跨模态对齐困难等问题。例如一场90分钟的足球比赛可能仅包含10次射门事件,而现有模型难以在重复性高的视觉内容中捕捉关键帧,且多机位切换和画中画特效进一步增加了语义连续性分析的难度。
针对这些问题,国内研究人员在《Intelligent Systems with Applications》发表研究,提出创新性的两阶段框架。该方法通过自监督生成的候选片段(proposals)缩小搜索范围,结合视频特征缓存机制和混合跨模态融合策略,在NBA-NSVA数据集上使R@1@0.5提升至32.66%,较基线SnAG提高3.09个百分点。研究证实,分离片段级判别(Stage 1)和实例级完整性优化(Stage 2)的层次化学习模式,能有效平衡计算效率与定位精度。
关键技术包括:1)基于时序一致性和运动强度的自监督提案生成;2)视频中心采样策略共享特征计算;3)混合跨模态融合(late fusion+注意力机制);4)两阶段损失函数设计(含平滑L1边界回归)。实验使用NBA比赛视频和THUMOS14动作检测数据集验证性能。
【视频编码与采样】
采用滑动窗口将视频分割为2秒片段,通过ResNet-152提取2048维特征,配合轻量Transformer编码时序上下文。创新性的缓存机制避免重叠片段重复计算,使小时级视频处理效率提升40%。
【自监督提案生成】
通过计算相邻片段特征相似度Ci和帧间运动强度Mi,构建提案置信度评分S(a,b)=C?(a,b)×M?(a,b)。该方法在无标注数据下实现85.3%的召回率,为后续阶段提供高质量候选。
【两阶段学习框架】
Stage 1采用二元交叉熵损失进行片段级分类,筛选tIoU>γ的候选;Stage 2通过平滑L1损失优化边界回归,公式Δs=(tgts-tprops)/Lprop实现亚秒级定位精度。实验显示两阶段设计使R@5@0.7提升19.3%。
【跨模态融合策略】
提出"late fusion+注意力"混合方案:初始检索阶段采用决策级融合Pf(i)=αPv(i)+(1-α)Pm(i);精修阶段通过跨模态注意力权重αi,j=exp(fi·uj/√d)实现特征交互,该设计使THUMOS14数据集R@1@0.5提升至45.32%。
研究结论表明,该方法通过层次化建模和模态互补机制,显著提升长视频事件定位的准确性和可扩展性。特别是在处理篮球比赛中的复合事件(如"三分球命中+观众欢呼+解说强调")时,跨模态注意力能捕捉传统方法忽略的关联特征。讨论部分指出,未来可结合语音识别和OCR技术进一步挖掘字幕、记分板等辅助信息,这将为体育视频结构化分析开辟新途径。
生物通微信公众号
知名企业招聘