编辑推荐:
在监控视频暴力检测中,现有方法存在诸多局限。研究人员开展 “An active learning driven deep spatio - textural acoustic feature ensemble assisted learning environment for violence detection in surveillance videos” 主题研究。结果显示 DestaVNet 模型表现优异,对提升暴力检测准确性和效率意义重大。
在当今社会,随着城市的快速发展和人口的不断增长,犯罪问题尤其是暴力犯罪,成为了严重威胁社会安全与稳定的因素。想象一下,在繁华的街道、热闹的公共场所,暴力事件随时可能发生,而传统的人工监控方式不仅效率低下,还容易出现疏漏。即便借助一些现有的人工智能(AI)技术,暴力检测也面临着诸多挑战。例如,复杂的背景、动态的场景、遮挡以及模糊的物体等,都会影响检测的准确性;而且传统方法往往依赖手动分析监控视频,不仅劳动强度大、容易出错,还难以适应大规模监控区域的需求。在这样的背景下,开展更高效、准确的暴力检测研究显得尤为迫切。
为了解决这些问题,有研究人员进行了一项关于监控视频暴力检测的研究,相关成果发表在《Engineering Science and Technology, an International Journal》。研究人员提出了一种全新且强大的深度时空纹理声学特征融合辅助学习环境(DestaVNet)用于监控视频中的暴力检测。
研究人员采用了多种关键技术方法。在数据处理方面,使用公开的 Violent - Flow 数据集及其他实时暴力数据集,将输入视频分离为音频和视频数据,并进行预处理。在特征提取环节,通过多约束主动学习(MCAL)选择最具代表性的帧,运用灰度共生矩阵(GLCM)、ResNet101 和 SqueezeNet 等进行视觉特征提取,同时提取多种声学特征。之后,将视觉和声学特征融合,利用主成分分析(PCA)选择特征并进行 z - score 归一化处理,最后通过包含支持向量机(SVM)、决策树(DT)、k 近邻算法(k - NN)、朴素贝叶斯(NB)和随机森林(RF)的异质集成学习(HEL)模型进行分类。
研究结果如下:
- 代表性帧分析:通过 MCAL 方法选择的代表性帧,有效降低了计算负载并维持了分类准确性。从 “暴力” 和 “非暴力” 视频片段中选取的样本帧可以看出,代表性帧能够准确捕捉关键信息,如暴力场景中的高活动时刻和非暴力场景的平静状态。
- 模型内评估:对不同特征模型和分类器进行了性能评估。结果表明,单独的 GLCM、ResNet101、SqueezeNet 特征模型各有优劣,而融合后的 DSTE 特征模型表现更优,暴力检测准确率达到 99.47%。声学特征单独使用时准确率为 98.22%,与 DSTE 特征融合后,准确率提升至 99.92%。在分类器方面,HEL 集成模型在使用视觉特征(DSTE)时,F - measure 达到 0.992,使用视听特征时,准确率高达 99.92% ,优于其他单个机器学习算法。
- 模型间评估:与其他现有暴力预测模型相比,DestaVNet 模型表现卓越。许多现有模型仅使用视觉特征,部分使用视听特征的模型准确率也低于 DestaVNet 模型。例如,一些模型的平均准确率在 94% 以下,而 DestaVNet 模型的准确率达到 99.92%,在精度、召回率和 F - Measure 等指标上也表现出色。
研究结论和讨论部分指出,DestaVNet 模型通过利用主动学习减少冗余帧,降低了计算成本和延迟;融合视听特征,提供了更丰富的信息,确保了准确可靠的暴力预测。该模型在准确率(99.92%)、精度(99.67%)、召回率(99.29%)和 F - Measure(0.992)等方面均优于其他现有方法。PCA 在精简特征选择、减少冗余和提高效率方面发挥了重要作用,k - NN 也是 HEL 集成的重要组成部分,提升了模型的整体准确性和性能。这一研究成果为监控视频暴力检测提供了更可靠的方法,对保障公共安全具有重要的现实意义,有助于相关部门更及时、准确地发现和处理暴力事件,维护社会的和谐稳定。