编辑推荐:
在弱监督视频异常检测(WSVAD)中,现有方法使用预训练模型提取特征存在局限。研究人员开展基于异常感知自监督学习(SSL)的 WSVAD 研究,提出新方法并引入策略。结果显示该方法在多个数据集上优于同行,为 WSVAD 发展提供新方向。
在如今这个监控无处不在的时代,视频异常检测(VAD)在保障公共安全、维持交通秩序、助力视频取证等方面发挥着至关重要的作用。想象一下,在城市的大街小巷,无数摄像头 24 小时不间断地工作,如何能快速且精准地从海量的监控视频中发现异常情况,成为了一个亟待解决的难题。异常情况往往在大量正常视频数据中显得极为稀少,要是依靠人工去标注每一帧视频中的异常,不仅耗费大量的人力和时间,而且成本高得让人难以承受。因此,主流的研究方向主要集中在无监督学习(UVAD)和弱监督学习(WSVAD)这两个框架上。
UVAD 尝试从正常视频中学习常规模式的分布,在测试阶段把偏离这个分布的视频当作异常。但由于训练集中没有异常视频,导致模型很难准确区分正常和异常的界限,检测效果大打折扣。而 WSVAD 则引入带有视频级标注的异常视频,与正常视频一起进行联合训练。虽然需要一定的标注成本,但检测性能有了显著提升。然而,目前 WSVAD 方法大多把精力放在构建各种复杂的异常检测器上,却忽略了特征提取阶段存在的问题。常用的预训练模型在大规模数据集(如 Kinetics - 400)上进行监督学习,其预训练特征与 WSVAD 任务并不完全匹配。因为 Kinetics - 400 主要是关于以人为中心的动作视频,而 WSVAD 的目标数据集包含更复杂多样的人类和非人类运动。并且,这些预训练模型更关注人类相关动作,容易忽视对异常检测很关键的细微动作和非人类动作,限制了输入特征的判别能力,阻碍了 WSVAD 方法取得更好的成果。
为了解决这些问题,来自未知研究机构的研究人员开展了一项关于异常感知自监督特征学习在弱监督视频异常检测中的研究。研究人员提出了一种基于异常感知自监督学习(SSL)的方法,并设计了一系列预训练任务,还引入了硬实例挖掘策略(HIMS)。研究结果表明,该方法在 UCF - Crime、ShanghaiTech 和 XD - Violence 等基准数据集上的表现优于当前最先进的方法,展现出了很强的有效性。这一研究成果发表在《Computer Vision and Image Understanding》上,为弱监督视频异常检测领域带来了新的突破和发展方向,对推动视频监控技术在保障社会安全等方面的应用具有重要意义。
研究人员采用了以下关键技术方法:一是设计了基于异常属性的自监督预训练任务,包括时间顺序验证、速度预测、时间箭头预测和突变检测,以此优化特征提取器的运动表示;二是运用多实例学习(MIL)训练异常检测器;三是提出硬实例挖掘策略(HIMS),对正常和异常视频分别进行处理,挖掘更多有价值的样本用于训练。
1. 自监督训练优化特征提取器
研究人员基于异常属性精心设计了四个异常感知预训练任务。通过时间顺序验证任务,让模型学习视频帧之间正确的时间顺序,这有助于捕捉视频中的动态信息;速度预测任务能使模型对视频中物体的运动速度有更准确的感知;时间箭头预测任务引导模型理解时间的单向性,从而更好地把握视频的时间特征;突变检测任务则专注于发现视频中的突然变化,这些变化往往与异常情况相关。通过这一系列任务的联合训练,显著提升了视频片段与运动相关的表示能力,使得特征提取器能够学习到更适合 WSVAD 任务的特征。
2. 硬实例挖掘策略提升检测性能
在训练异常检测器时,传统方法使用多实例学习(MIL),只利用异常得分排名前 k 的样本,忽略了其他样本中的潜在有价值信息。研究人员提出的硬实例挖掘策略(HIMS)对此进行了改进。对于正常视频,从非前 k 的片段中重新利用潜在的难负样本;对于异常视频,通过对其进行时间子采样,构造出上下文信息更少、更具挑战性的数据。在训练过程中,将这些生成的硬实例与原来的前 k 样本一起使用,有效增强了异常检测器对正常和异常片段的判别能力,进一步提升了检测性能。
3. 实验验证方法有效性
研究人员使用 UCF - Crime、ShanghaiTech 等多个数据集进行实验。UCF - Crime 是一个大规模的真实监控视频数据集,包含 1610 个带视频级标注的训练视频和 290 个带帧级标注的测试视频,涵盖多种异常类型。ShanghaiTech 是一个中等规模的真实数据集。在这些数据集上的实验结果显示,研究人员提出的方法在异常检测方面取得了优于当前最先进方法的成绩,有力地证明了该方法的有效性。
研究人员提出的基于异常感知自监督学习(SSL)的方法,从视频表示的基础角度出发,通过设计创新的预训练任务和硬实例挖掘策略(HIMS),有效解决了 WSVAD 中特征提取和样本利用的问题。该研究不仅在多个基准数据集上展现出优异的性能,为弱监督视频异常检测领域提供了新的思路和方法,还对推动视频监控技术在实际场景中的应用具有重要的理论和实践意义。未来,有望基于此研究成果进一步优化算法,提高异常检测的准确性和效率,更好地服务于公共安全等领域。