《Pattern Recognition》:MG-TVMF: Multi-grained Text-Video Matching and Fusing for Weakly Supervised Video Anomaly Detection
编辑推荐:
弱监督视频异常检测中,针对粗粒度标注导致的误报和定位不完整问题,提出MG-TVMF方法。通过多粒度文本-视频匹配分支MG-TVM,结合全局语义对齐和基于最优传输算法的局部文本匹配模块,提升异常定位精度;同时通过多粒度文本-视频融合分支MG-TVF,重构带掩码的异常相关文本描述,增强定位完整性。实验表明该方法在UCF-Crime、XD-Violence和ShanghaiTech数据集上均优于基线方法。
Ping He|Xiaonan Gao|Huibin Li
中国陕西省西安市西安交通大学数学与统计学院信息科学系
摘要
由于缺乏精确的时间注释,弱监督视频异常检测(WS-VAD)经常面临误报和定位不完整的问题。为了解决这些限制,我们提出了一种新的方法——多粒度文本-视频匹配与融合(MG-TVMF),该方法利用异常类别文本标签中的语义线索来提高异常定位的准确性和完整性。MG-TVMF结合了两个互补的模块:MG-TVM模块通过分层结构提高定位精度,该结构包括一个粗粒度分类模块和两个细粒度匹配模块,其中一个视频-文本匹配(VTM)模块用于全局语义对齐,另一个段落-文本匹配(STM)模块通过最优传输算法实现局部视频(即段落)文本对齐。同时,MG-TVMF通过在每个段落级字幕前添加全局视频级文本提示来进行多粒度文本融合,并利用视频段落特征和异常分数重建得分最高的段落的掩码异常相关字幕。在UCF-Crime和XD-Violence数据集上的广泛实验证明了所提出的VTM和STM模块以及MG-TVMF方法的有效性,该方法在UCF-Crime、XD-Violence和ShanghaiTech数据集上取得了领先的性能。
引言
视频异常检测(VAD)是智能监控中的关键任务,应用于公共安全、交通管理和基础设施监控[1]。其目标是识别偏离典型行为的异常事件并确定它们的时间发生位置[2]。VAD方法通常分为三种监督模式:监督式、无监督式和弱监督式。监督式方法需要详细的帧级注释,但由于异常事件的罕见性和不可预测性,这通常成本高昂且不切实际。无监督式方法仅从正常视频中学习并通过识别异常来检测异常,但在复杂环境中往往误报率较高[3]。作为折中方案,仅依赖视频级标签的弱监督视频异常检测(WS-VAD)因减少注释负担和提高实用性而受到越来越多的关注[4]。
尽管弱监督视频异常检测已经取得了显著进展,但仅使用粗粒度视频级注释在未修剪的视频中准确定位异常仍然具有挑战性[5],[6]。如图1所示,存在两个主要限制。在图1(a)中,当视觉上模糊但在上下文中正常的段落(尤其是在异常的时间边界附近)被错误地检测为异常时,就会发生误报。在图1(b)中,由于视觉线索微妙或不明显,真正属于异常事件的段落被遗漏,导致定位不完整。这些问题突显了WS-VAD的固有局限性,即它缺乏异常定位所需的时间精度。值得注意的是,许多数据集[7],[8]不仅提供了异常标签,还提供了类别文本描述,如虐待、逮捕或射击。这些文本标签编码了丰富的语义线索,但这些线索尚未得到充分探索。最近,大型语言模型的迅速发展为视觉-语言模型[9]在WS-VAD中的应用铺平了道路。
为了解决WS-VAD中的误报和定位不完整问题,我们提出了一种新的方法——多粒度文本-视频匹配与融合(MG-TVMF),该方法利用异常类别文本标签中的语义线索来提高异常定位性能。具体来说,为了减少误报,多粒度文本-视频匹配(MG-TVM)模块设计使用预训练的视觉-语言模型提取视频段落和文本特征。与直接预测异常分数的粗粒度分类基线不同,MG-TVM模块整合了两个细粒度的跨模态匹配模块。第一个是视频-文本匹配(VTM)模块,它使用异常分数作为注意力权重来聚合段落级特征,构建整体视频表示,然后与文本标签嵌入进行匹配,以确保全局语义一致性。第二个是段落-文本匹配(STM)模块,它采用基于最优传输(OT)的算法将视频段落和文本特征建模为概率分布,并通过Sinkhorn算法计算全局最优传输计划[10]。这种匹配策略保留了两种模态的整体语义结构,并通过将最小传输质量分配给无关对来抑制不相关的对应关系。它有效地作为一种软注意力机制,产生可解释且语义上有意义的匹配结果,提高了对异常边界附近模糊正常段落的区分能力。通过整合VTM和STM模块,MG-TVM模块在弱监督下实现了稳健和精确的异常定位,平衡了全局语义理解和细粒度区分能力。
同时,为了解决异常定位不完整的问题,我们进一步提出了多粒度文本-视频融合(MG-TVM)模块。具体来说,MG-TVM模块为每个视频段落生成细粒度字幕并屏蔽关键异常相关词汇。这些屏蔽后的字幕与全局视频级文本提示连接起来,构成更丰富和多粒度的文本输入。然后使用基于Transformer的重建器通过融合MG-TVM模块的视频段落特征和异常分数来恢复屏蔽内容。与直接重建视频级全局描述相比,这种段落级字幕重建保留了时间粒度,并能够更全面地整合微妙和依赖于上下文的异常线索。因此,所提出的方法在定位完整异常实例方面表现更好,具有更高的完整性和精度。
总之,本文做出了以下关键贡献:
•我们提出了MG-TVMF,这是一种利用异常文本标签中的语义线索来解决WS-VAD任务中的误报和异常定位不完整问题的新方法。
•所提出的MG-TVM模块结合了粗粒度异常分类和细粒度的VTM及基于OT的STM,以提高语义一致性和定位精度,同时通过融合视觉和文本线索来重建屏蔽后的字幕,从而提高定位完整性。
•在UCF-Crime和XD-Violence数据集上的广泛实验验证了所提出的VTM和STM模块以及MG-TVMF方法的有效性,整体MG-TVMF方法在UCF-Crime、XD-Violence和ShanghaiTech数据集上取得了优异的性能。
部分摘录
视频异常检测
由于标注异常数据的有限可用性,早期的视频异常检测方法主要采用无监督学习范式。这些方法[11],[12],[13]仅基于正常实例训练模型,并通过测量重建或预测误差来检测异常。例如,基于重建的方法[11],[12]通过训练正常视频来学习正常事件的分布表示,确保正常事件表现出较小的
提出的方法
问题表述。在WS-VAD的背景下,我们有一组N个未处理的视频,表示为。每个视频都与其对应的视频级标签相关联。通常,根据标签的粒度不同,每个视频Vi都带有粗粒度和细粒度的视频级标签。具体来说,和。这里,表示Vi是一个异常视频,表示异常类别的数量。
概述。
数据集和评估指标
数据集。我们在三个知名数据集上进行了广泛实验:UCF-Crime [7]、XD-Violence [8] 和 ShanghaiTech [13]。(1)UCF-Crime。它是最早的大规模WS-VAD数据集之一,包含大约128小时的监控录像。该数据集包含1900个未修剪的视频,涵盖了13种不同的异常行为,如虐待、逮捕、纵火等。出于训练目的,该数据集提供了800个正常视频和
结论和未来工作
本文提出了MG-TVMF,这是一种利用多粒度文本-视频匹配和融合策略的WS-VAD新方法。通过结合文本异常标签中的全局和局部语义线索,我们的方法解决了异常定位中的关键问题,如误报和检测不完整。MG-TVM模块通过在全球层面对齐视频特征和异常类别文本标签来提高定位精度。此外,它还执行了
CRediT作者贡献声明
Ping He:撰写——原始草稿、验证、软件、方法论、调查、形式分析、概念化。Xiaonan Gao:可视化、验证、软件。Huibin Li:撰写——审稿与编辑、验证、监督、资金获取、概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了中国国家重点研发计划(项目编号2018AAA0102201)的支持。
Ping He毕业于东北大学(NEU),目前正在西安交通大学数学与统计学院信息科学系攻读博士学位。他的研究兴趣包括深度学习、弱监督视频异常检测、无监督视频异常检测。