基于视觉-语言模型与对比学习的跨域视频异常检测方法MMVAD研究

【字体: 时间:2025年05月09日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对无人机与监控视频中弱标注异常检测的难题,研究者提出多模态视频异常检测模型MMVAD。通过自适应长短时视频分割(ALSVS)提取局部-全局特征,结合注意力特征融合(AFF)技术解决跨模态对齐问题,并首次引入显著性感知对比学习增强异常特征区分度。实验表明,该模型在无人机(Drone-Anomaly、UIT Drone)和监控(UCF Crime、XD-Violence)数据集上AUC提升超3%,为复杂场景下的公共安全监测提供新范式。

  

视频异常检测(Video Anomaly Detection, VAD)是智能安防领域的核心任务,尤其在公共场所风险预警中至关重要。然而,现有技术面临三大瓶颈:传统方法依赖单一视频模态,难以理解复杂场景上下文;固定尺度的视频分段策略无法适配不同时长的异常事件;基于特征幅度的检测易受物体规模或运动干扰。更严峻的是,无人机(UAV)拍摄的高空视频因视角独特、目标微小,使得异常检测难度倍增。

为解决这些问题,研究人员提出MMVAD模型,其创新性体现在三方面:首先采用自适应长短时视频分割(Adaptive Long-Short-Term Video Segmentation, ALSVS),通过双尺度帧采样策略同步捕捉细粒度局部特征和全局上下文;其次设计注意力特征融合模块(Attention-based Feature Fusion, AFF),利用Transformer架构实现视频片段与文本描述的非线性交互;最后引入功率增强特征对比学习(Power-enhanced Feature Contrastive Learning),通过显著性感知优化异常特征空间分布。实验覆盖Drone-Anomaly等四个跨域数据集,AUC指标显著提升3.3%以上。

关键技术包括:1)基于视频片段包(snippet bags)的弱监督训练框架;2)ALSVS模块实现16/32帧双尺度分割;3)AFF模块中视频特征作为patch tokens与文本CLS tokens交互;4)功率增强特征(PEMF)计算及对比学习采样策略。

研究结果:

  1. 弱监督异常检测:通过多示例学习(MIL)框架处理视频级标签,利用I3D网络提取时空特征,克服了传统无监督方法的局限性。
  2. 方法论:ALSVS模块证明双尺度分割对高空无人机视频(如Drone-Anomaly)的检测准确率提升2.1%;AFF模块在XD-Violence数据集上F1-score提高4.7%。
  3. 数据集验证:在UIT Drone数据集中,模型对微小目标(如违规停车)的检测灵敏度达89.3%,显著优于基线模型(+5.6%)。

结论指出,MMVAD首次实现视觉-语言模态的深度协同,其对比学习策略使异常特征类间距扩大37%。该成果发表于《Expert Systems with Applications》,为动态场景下的智能监控提供可扩展框架,尤其适用于高空无人机巡检等新兴应用场景。讨论部分强调,未来工作将探索多模态提示学习(prompt learning)以进一步提升跨域泛化能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号