基于运动引导与知识图谱的无监督视频异常检测方法MG-KG研究

【字体: 时间:2025年07月16日 来源:iLIVER CS1.5

编辑推荐:

  为解决视频异常检测(VAD)中时空关联性缺失和结果可解释性不足的问题,研究人员提出融合运动引导网络(MGNet)与知识图谱检索(VAD-KG)的MG-KG框架。该研究通过运动特征增强前景关注度,结合结构化知识存储实现模型可解释性提升,在三个公开数据集上验证了方法的优越性,为智能监控系统提供兼具泛化能力与语义理解的新范式。

  

在智能安防领域,视频异常检测(Video Anomaly Detection, VAD)如同一个永不闭眼的"电子哨兵",但现有系统常陷入两难困境:要么像"高度近视"般忽略运动细节,要么如"机械复读机"缺乏逻辑判断能力。更棘手的是,这些基于深度学习的模型往往存在"黑箱效应"——即便准确报警,安保人员也难以理解其决策依据。这种现状在机场、地铁等关键场所尤为突出,当系统突然对"草坪行走"或"静止骑车"等行为报警时,工作人员既无法快速验证,也难以进行后续处置。

针对这些行业痛点,山东自然科学基金支持的研究团队创新性地将人类认知机制融入算法设计,提出名为MG-KG的融合解决方案。该方法巧妙结合了仿生视觉的注意力机制与结构化知识存储,就像为监控系统同时安装"动态捕捉眼镜"和"警务知识库"。相关成果为智能安防领域提供了兼具机器效率与人类可理解性的新范式。

研究人员主要采用三项关键技术:1)运动引导网络(MGNet)通过双分支架构实现外观-运动特征协同优化;2)知识图谱(VAD-KG)采用三元组表格存储目标属性(速度/尺寸等);3)创新性提出训练基线策略、禁忌搜索策略和分数校正策略组成的增强方案。实验选用UCSD Ped2、CUHK Avenue和ShanghaiTech三个标准数据集验证性能。

【Method based on appearance features】

通过对比传统手工特征(如SIFT、光流直方图)与深度学习方法,指出当前CNN模型虽在特征提取方面占优,但存在过度依赖外观特征、易受背景干扰等问题。

【The proposed method】

MGNet采用类Unet结构,其创新性运动引导模块通过跳跃连接实现运动-外观特征融合,相比传统记忆存储单元降低83%计算开销。VAD-KG部分通过目标检测提取实体属性,构建包含速度/位置等12维特征的知识图谱,测试时通过相似度检索实现决策溯源。

【Datasets】

在UCSD Ped2灰度数据集上验证对简单场景的适应性,在CUHK Avenue复杂场景中测试抗干扰能力,ShanghaiTech多场景数据则检验跨场景泛化性。特别指出 Avenue数据集因背景行人运动复杂,传统方法误报率高达34%。

【Conclusion】

该研究突破性地实现"检测-解释"闭环:MGNet的帧预测误差率较基线模型降低21%,VAD-KG使决策可解释性提升至89%。提出的三阶段增强策略使异常事件持续检测准确率提升17.3%,对短时异常(<0.5秒)的捕捉灵敏度提高42%。这种"神经网络+知识图谱"的双引擎架构,不仅解决传统VAD模型"知其然不知其所以然"的缺陷,更开创性地将认知科学引入智能监控领域,为构建新一代可信AI安防系统提供关键技术支撑。值得注意的是,该方法在计算效率方面表现突出,在Jetson TX2边缘设备上可实现每秒27帧的实时处理,较同类方案提升3倍运行效率。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号