编辑推荐:
在视频事件检测(VED)领域,现有方法对不确定性估计研究不足。研究人员开展了融合时空不确定性的 VED 神经网络及相关研究。结果显示,该方法在多个数据集上优于现有技术,STU-NMS 进一步提升了检测性能。这为 VED 应用提供了更可靠的决策依据。
在当今科技飞速发展的时代,自动驾驶、智能监控、微观视频分析等领域不断取得新突破。这些领域的核心需求之一便是在视频流中精准检测事件,视频事件检测(Video Event Detection,VED)由此成为计算机视觉领域的热门研究方向。然而,当前的 VED 研究却面临着一个严峻的问题:对不确定性估计的探究不够深入。在实际应用中,不确定性估计至关重要,它能在检测结果不可靠时及时提醒决策系统和决策者,从而有效减少决策失误。但现有的 VED 方法大多将精力集中在引入和设计新颖的深度网络架构上,以提高检测精度或拓展应用场景,却忽视了不确定性估计这一关键环节。
为了解决这一问题,华北理工大学信息科学与技术学院的研究人员展开了深入研究。他们提出了一种端到端的 VED 神经网络,该网络创新性地融合了空间和时间不确定性,并将其应用于非极大值抑制(Non-Maximum Suppression,NMS)过程,形成了时空不确定性引导的 NMS(SpatioTemporal Uncertainty guided NMS,STU-NMS)。这项研究成果发表在《Scientific Reports》上,为 VED 领域带来了新的突破。
研究人员在开展研究时,运用了多个关键技术方法。首先构建了基于 YOWO 模型的时空不确定性引导的 You Only Watch Once(STU-YOWO)网络,该网络包含时间分支、空间分支和不确定性多头模块(Uncertainty Multi-Head Module,UMHM)。其次,设计了 UMHM 来估计时空不确定性,并将其融入网络训练和推理过程。最后,提出了 STU-NMS 算法,结合时空不确定性改进传统 NMS 策略 。
下面来具体看一下研究结果:
- 数据集和评估:研究使用了 AVA、J-HMDB-21 和 UCF101-24 三个数据集。AVA 数据集包含大量电影中的人物交互和场景事件;J-HMDB-21 是 HMDB51 的子集,记录人类日常生活事件;UCF101-24 专为动作识别任务设计。评估指标采用平均精度均值(mean Average Precision,mAP),并设定 IoU 阈值为 0.5 得到 mAP50。
- 实验配置:实验在两块 NVIDIA RTX3090 GPU 上进行,采用 Adam 优化器,训练 10 个 epoch,学习率在第 3 - 6 个 epoch 线性下降,还确定了一系列关键超参数的默认值。
- 框架参数选择:研究发现,随着采样间隔增大,模型在两个数据集上的性能均有所下降,因此选择采样间隔 d = 1 作为默认参数。同时,16 帧输入在 J-HMDB-21 数据集上表现最佳,32 帧输入对 AVA 数据集更有利。
- STU-NMS 的参数实验:通过实验确定了 SUF 中超参数 λ 的最优值为 0.25,并且引入时间不确定性的 STU-NMS 比仅考虑空间不确定性的 SU-NMS 性能更优。
- 注意力机制的消融实验:实验表明,在 TUS 中使用 CBAM 比使用 CFAM 更适合进行时间分类不确定性估计,使用 CBAM 的框架 mAP50更高。
- 不确定性流的消融实验:空间和时间不确定性流均能不同程度提升基线模型性能,两者结合效果更佳。将估计的不确定性融入 NMS 步骤后,模型性能进一步提高,证明了 STU-NMS 的重要性。
- STU-YOWO 和 STU-NMS 的性能:与多种现有算法对比,STU-YOWO 和 STU-YOWO + STU-NMS 在三个数据集上均取得了更好的性能,验证了该框架的有效性。
- 统计验证和计算复杂度:基于 J-HMDB-21 数据集的实验表明,STU-YOWO 的性能显著优于 YOWO。同时,STU-YOWO 的计算复杂度和运行时间相较于 YOWO 有所增加。
- 网络可视化:通过可视化检测结果发现,分类不确定性与预测的准确性相关,定位不确定性与预测框和真实框的差异相关,且不同动作的不确定性表现有所不同。
- 不确定性分析:一系列实验从多方面验证了估计不确定性的有效性,如不确定性随 IoU 下降而增加,模型能感知视频帧的变化,还对新类别有一定检测能力。
研究结论表明,该研究提出的 STU-YOWO 框架有效提升了 YOWO 在三个数据集上的性能,证明了不确定性损失对模型训练的促进作用。同时,将不确定性与 NMS 相结合进一步增强了模型性能。通过可视化分析,也定性验证了估计不确定性的有效性。然而,该研究也存在一定局限性,如缺乏针对 VED 或不确定性估计的注意力模块设计,UMHM 未考虑模型参数和计算复杂度。未来的研究可以朝着优化注意力模块架构、引入模型架构搜索策略的方向展开,以进一步提升视频事件检测的性能,为自动驾驶、智能监控等实际应用提供更可靠的技术支持。