基于时间间隔预测与噪声分类的自监督学习视频异常检测框架研究

【字体: 时间:2025年07月26日 来源:Pattern Recognition 7.5

编辑推荐:

  针对视频异常检测(VAD)中传统方法对细粒度特征捕捉不足的问题,研究人员提出了一种结合时间间隔预测与噪声分类的自监督学习框架。通过多头部自注意力机制建模帧间动态关系,并采用类扩散模型的噪声分类任务增强局部特征敏感性,在UCSD Ped2(98.6% AUC)、CUHK Avenue(91.7%)和ShanghaiTech(83.7%)数据集上实现显著性能提升,为复杂场景下的实时监控提供新思路。

  

在智能城市建设和公共安全需求激增的背景下,视频监控系统每天产生海量数据,如何自动识别其中的异常事件成为关键挑战。传统视频异常检测(Video Anomaly Detection, VAD)方法面临两大困境:一方面异常样本稀缺导致监督学习难以实施,另一方面现有无监督方法多依赖像素级重建,容易忽略深层语义特征。更棘手的是,静态异常(如违停车辆)或细微动作变化常被误判,而复杂背景噪声又会干扰全局结构感知。这些局限性促使研究者转向更具解释力的自监督学习范式。

针对这一科学问题,获得国家自然科学基金资助(项目号61672305)的研究团队在《Pattern Recognition》发表创新成果。该研究突破传统粗粒度建模思路,首创性地将时间动力学分析与空间扰动响应相结合,通过双分支框架实现细粒度特征提取。时序分支采用创新的时间间隔预测任务——给定固定中间帧和随机采样的两侧帧,模型需预测其与中心帧的时间差,这种设计迫使网络理解动作连续性的物理规律。空间分支则受扩散模型启发,通过分级添加噪声并分类噪声强度,培养模型对局部畸变的敏感度。关键技术包括:7帧时序窗口的多头部自注意力机制、n2分块的空间扰动策略,以及端到端联合训练的轻量化架构。

视频序列采样与处理
研究采用YOLOv3算法实时提取视频对象,构建时空立方体。实验表明,7帧序列长度在计算效率与检测精度间达到最优平衡,继续增至9帧仅带来40%计算量(FLOPs)增长而性能提升有限。空间分块测试发现,当n2从4增至9时检测精度提升1.2-3.6个百分点,但进一步细分至16块会因内存翻倍和前景信息稀释导致性能下降。

时间间隔预测任务
不同于传统时序排序方法,该研究要求模型精确量化帧间时间距离。通过随机采样左右帧与中心帧构成三元组,结合位置编码和多头部注意力机制,成功捕捉到UCSD Ped2数据集中行人奔跑与正常行走的节奏差异。消融实验显示,该任务使CUHK Avenue数据集上的时间特征判别力提升19%。

噪声分类任务
在空间维度,研究借鉴扩散模型思想,对分块图像施加从1%到50%的渐进高斯噪声。模型通过预测噪声等级,学会区分上海Tech复杂场景中静止异常物与背景噪声。值得注意的是,噪声仅训练阶段添加,测试时直接处理原始帧,确保推理速度达38 FPS。

跨数据集验证
在三大基准测试中,该方法展现出卓越的泛化能力:对UCSD Ped2的车辆闯入、CUHK Avenue的抛掷物品、ShanghaiTech的群体冲突等差异化场景,AUC分别达98.6%、91.7%和83.7%。特别在静态异常检测方面,相比传统方法错误率降低32%,证实空间噪声任务有效增强了局部畸变感知。

该研究的突破性在于将物理运动规律(时间间隔)与信息论概念(噪声等级)转化为可学习的监督信号。时间预测任务迫使网络理解牛顿力学隐含的连续性约束,而噪声分类则通过扰动-响应机制建立局部稳定性先验。这种双通道设计既避免了对预训练模型的依赖,又将推理时延控制在3ms内,为机场、地铁等实时安防场景提供实用方案。未来工作可探索时空任务的动态权重调整,并整合更多先验知识(如光学流)以进一步提升对伪装异常的识别能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号