
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于骨骼特征的多人体动作识别技术在现实场景暴力检测中的应用研究
【字体: 大 中 小 】 时间:2025年08月28日 来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
本文推荐:作者提出多骨骼动作识别器(MSAR),通过五阶段流程(人体检测-YOLOv9/Faster R-CNN、目标追踪-DeepSORT、骨骼提取-MediaPipe、数据预处理、动作分类)实现暴力行为识别。创新性采用融合双向长短期记忆-门控循环单元(BiLSTM-GRU)架构,最高准确率达96.46%,模块化设计增强系统扩展性,为智能监控、医疗护理等领域提供新范式。
Highlight
骨骼驱动的多人体动作识别技术为现实世界暴力检测开辟新途径。本研究通过创新性融合时空特征分析与深度学习架构,显著提升复杂交互场景下的识别鲁棒性。
MSAR: 多骨骼动作识别器
在动作识别领域,单人动作识别因帧内个体单一而相对简单。如我们前期研究(Truong et al., 2024)使用KTH数据集时准确率超97%。而多人体场景需解决三大核心挑战:1)动态人数变化导致的骨骼序列不对齐;2)交互动作的时空依赖性建模;3)实时处理的计算效率优化。
数据集
《视频暴力自动检测数据集》(Bianculli et al., 2020)包含350段标记视频,分为"暴力"与"非暴力"两类。特别值得注意的是,非暴力视频包含易被误判的剧烈运动(如竞技舞蹈),这对模型判别力提出更高要求。数据预处理采用零值填充(zero-padding)解决帧间人数波动问题,确保张量维度统一。
结论
实验证实,基于骨骼数据的多阶段处理流程在暴力检测任务中表现卓越。我们设计的双向LSTM-门控循环单元(BiLSTM-GRU)混合架构创下96.46%的峰值准确率,平均达91.18%。模块化设计允许各阶段(如检测模块YOLOv9可替换为DETR)独立升级,为未来扩展预留空间。
讨论与局限性
当前系统在低光照条件下的骨骼提取精度有待提升,且对多人重叠场景的轨迹区分仍存挑战。未来将通过引入时空注意力机制(spatiotemporal attention)优化关键帧权重分配。
生物通微信公众号
知名企业招聘