编辑推荐:
针对弱监督时间动作定位(WTAL)中时间类激活图(TCAM)前景背景可分性差、动作预测不完整的问题,研究人员融合 CLIP 视觉特征,提出基于扩散模型的多模态特征图生成方法,设计硬掩码策略。实验在 THUMOS14 和 ActivityNet1.2 达 SOTA,提升定位精度与效率。
在视频数据爆炸式增长的当下,精准理解视频内容成为人工智能领域的重要挑战。时间动作定位(TAL)作为核心任务,旨在定位未修剪视频中动作的时间边界与类别,广泛应用于自动驾驶、安防监控等场景。然而,传统全监督 TAL 依赖耗时费力的帧级标注数据,弱监督时间动作定位(WTAL)因仅需视频级标签而备受关注。但 WTAL 面临关键难题:缺乏帧级细节标注导致学习到的时间类激活图(TCAM)前景与背景区分度差,动作边界预测不完整,常出现定位过度或缺失的情况。如何在弱监督条件下提升动作特征的表征能力,成为该领域亟待突破的瓶颈。
为解决这一问题,国内研究团队开展了多模态特征融合与扩散模型驱动的 WTAL 研究。团队提出一种基于扩散模型的多模态特征图生成方法,通过整合 Contrastive Language-Image Pre-training(CLIP)模型的高语义视觉特征,强化动作特征的表征能力,并利用扩散模型挖掘不同模态间的互补关系。实验结果表明,该方法在 THUMOS14 和 ActivityNet1.2 两大基准数据集上均实现了 state-of-the-art(SOTA)性能,为弱监督视频分析提供了新范式。该研究成果发表于《Engineering Applications of Artificial Intelligence》。
研究采用的关键技术方法包括:
- CLIP 视觉特征提取:利用 CLIP 模型的图像编码器从视频中提取视觉特征,避免文本模态的粗粒度描述与额外计算开销,保留时间上下文一致性。
- 扩散模型驱动的多模态融合:将 RGB、光流(Flow)和 CLIP 视觉特征沿时间轴串联,通过扩散模型的迭代去噪过程,将多模态信息投影到统一特征空间,生成包含丰富动作线索的特征图。
- 硬掩码策略:设计硬掩码生成方法,作为帧级伪 Ground Truth 输入扩散模型,引导模型学习人类动作的先验分布,提升特征生成质量。
研究结果
多模态特征融合与扩散模型设计
传统 WTAL 方法多基于 “分类 - 定位” 范式,通过生成 TCAM 推断动作边界,但弱监督下 TCAM 的前景背景区分度不足。团队引入 CLIP 视觉特征,其通过图像编码器直接从视频中提取高语义特征,相较依赖 “视频包含 [CLS]” 等粗粒度文本描述的方法,能更精准捕捉动作区域。同时,扩散模型通过向输入数据注入噪声并逐步去噪,将多模态特征分布转化为人类动作特征分布。硬掩码策略生成的伪标签为扩散模型提供动作先验,确保生成特征与原始结构一致。
实验验证与性能分析
在 THUMOS14(20 类动作,200 验证视频、213 测试视频)和 ActivityNet1.2 数据集上,团队方法显著优于现有 WTAL 算法。具体表现为:在动作定位的关键指标(如平均精度 mAP)上实现提升,证明多模态特征与扩散模型的结合有效增强了动作特征的表征能力,改善了 TCAM 的前景背景可分性,从而实现更精准的动作边界预测。
模型有效性与优势
对比仅使用文本模态或单一视觉模态的方法,该研究提出的多模态融合框架充分利用 RGB、Flow 和 CLIP 视觉特征的互补性。例如,RGB 捕捉外观信息,Flow 表征运动线索,CLIP 视觉特征提供高层语义,三者通过扩散模型的去噪过程实现深度交互,生成的特征图包含更全面的动作语义与时间结构信息。硬掩码策略则通过伪标签引导,弥补了弱监督下帧级标注缺失的缺陷,提升了扩散模型的生成效率与准确性。
结论与意义
该研究首次将扩散模型引入弱监督时间动作定位领域,通过多模态特征融合与硬掩码引导的扩散过程,显著提升了 TCAM 的质量,实现了弱监督条件下精准高效的动作定位。研究成果不仅为 WTAL 提供了新的技术路径,也为多模态信息融合在视频分析中的应用开辟了新方向。未来,可进一步探索跨模态生成能力的扩展,如引入音频模态或更复杂的语义描述,以推动大规模视频数据理解技术的发展。该方法在智能监控、人机交互等领域的潜在应用,将为实时视频分析与智能决策系统提供关键技术支撑。