编辑推荐:
多目标姿态估计模型BASP_YOLO通过融合轻量级DSConv层、多尺度BiFPN-EMA模块及CSPC优化结构,在保持84.6%@0.5 mAP的同时实现54 FPS,显著降低计算量并提升复杂场景鲁棒性。
高向东|孙丽英|张帆
天津城建大学控制与机械工程学院,中国天津300384
摘要
本文提出了BASP_YOLO,这是一种改进的多人体姿态估计模型,旨在平衡准确性和速度,以适应实际应用需求。为了解决现有方法的计算复杂性和鲁棒性不足的问题,该模型整合了轻量级的DSConv层、结合BiFPN的多尺度融合模块和高效的注意力机制、具有CSPC连接的优化空间金字塔池化模块,以及SPD-DS模块来减少通道信息损失。在MS COCO数据集上的评估显示,BASP_YOLO在54 FPS的帧率下实现了84.6%的mAP@0.5,性能优于YOLO-Pose和OpenPose等主流模型。这些改进将计算负担降低了52.2%,同时增强了遮挡处理能力、小目标检测能力和对环境干扰的鲁棒性。使用MPII数据集进一步验证了模型改进的有效性。这项工作在尽可能不牺牲实时性能的情况下提高了姿态估计的准确性,推动了资源受限场景下的部署可行性。
引言
人体姿态估计涉及对图像中的关键点进行分类和定位,并将它们连接起来形成揭示姿势和运动的骨骼结构。这项技术广泛应用于行为识别、自动驾驶、安全监控和人机交互等领域。
2014年,Toshev等人提出了DeepPose,这是第一个基于深度学习的人体姿态估计方法,使用回归算法进行单人体关键点检测。此后,多人体姿态估计方法主要发展为两种方式:自上而下和自下而上。自上而下的方法在估计关键点之前先检测人体边界框,虽然精度高,但随着人数增加计算量也会增加。自下而上的方法首先检测所有关键点,然后将它们组装成骨骼结构,性能更快,但在复杂场景中的精度较低。流行的模型包括OpenPose [1]、Higher HR-Net [2]、EfficientHRNet [3] 和 AlphaPose [4]。2022年,Maji等人 [5] 提出了YOLO-Pose,它用基于YOLOv5的端到端回归方法替代了传统的热图方法,显著提高了效率。随后出现了YOLOv7-Pose [6] 和 YOLOv8-Pose [7],进一步提高了速度和精度,但仍难以同时平衡两者,限制了实际应用。
后续的研究在这些模型的基础上进行了改进。Hao等人 [8] 提出了一种基于OpenPose的轻量级方法,使用10层的VGG19进行特征提取,并结合帧间姿态距离和匹配算法来连接不同帧的姿态。输出层中的SVM分类器确保了实时性能和准确性。MossPose [9] 整合了OpenPose、MobileNet和注意力模块,使用YOLOv5进行预检测以优化移动设备的部署。HFDMIA-Pose [10] 通过SPD-Conv和BCIOU损失函数增强了YOLOv8的性能,替换了AlphaPose的检测器。Ding等人 [11] 通过添加GhostNet、ACmix、坐标注意力函数和优化损失函数改进了YOLO-Pose,在复杂场景中提高了准确性和速度。Fu等人 [12] 通过在主干网络中加入C2f-GhostNetBottleNeckV2和非局部注意力机制、在颈部加入BiFPN以及小目标检测头进一步优化了YOLOv8。Focal-EIOU损失函数提高了准确性、收敛速度并降低了计算成本。
本文提出了一种优化的YOLOv8n-Pose模型,以在准确性和速度之间取得更好的平衡,满足工程应用的实时需求。本研究的主要贡献如下:
•基于双向特征金字塔网络(BiFPN)、高效多尺度注意力(EMA)和分布移位卷积(DSConv)设计了一种轻量级的多尺度融合模块C2f_BED,用于高效融合多尺度特征。
•采用跨阶段部分连接(CSPC)将输入路径修改为具有多个最大池化层的串行结构,并用DSConv替换标准卷积,以增强空间金字塔池化效果,提高对局部和全局特征的敏感性。
•SPD-DSConv模块结合了空间到深度转换,减少了计算量,同时提高了对低分辨率图像和小目标的识别性能。
章节片段
YOLOv8n-Pose检测模型
YOLOv8-Pose模型由三个主要部分组成:主干网络(Backbone)、颈部(Neck)和头部(Head)。主干网络使用5个卷积模块、4个C2f模块和1个SPPF模块提取特征,结合卷积和反卷积层来捕捉空间和上下文信息。残差连接和瓶颈结构增强了特征流动,减小了模型大小,提高了效率,同时不牺牲性能。
颈部采用特征金字塔网络来细化和融合多尺度特征,结合
实验设置和评估指标
在本文中,我们使用COCO 2017姿态估计子集作为主要数据集。该子集包含56,599张训练图像和2,346张验证图像,为模型的鲁棒训练和评估提供了多样化的数据。此外,还使用MPII数据集进一步验证了模型改进的有效性。MPII数据集的标注格式为.mat,需要转换为.json格式以便模型训练。由于数据量较大
结论
本文解决了当前多人体姿态估计模型面临的挑战,特别是高计算成本和参数数量限制了它们在工程场景中的实时应用。为了解决这些问题,提出了BASP_YOLO模型。该模型整合了C2f_BED、SPPF_CD和SPD_DS等轻量级模块,这些模块专门用于改进不同尺度特征之间的融合、增强特征提取能力并扩大感知范围
作者声明
高向东:概念设计、研究、正式分析、数据整理、方法论、验证、撰写 - 原始草稿
孙丽英:监督、项目管理、撰写 - 审阅与编辑
张帆:验证、撰写 - 审阅与编辑
CRediT作者贡献声明
高向东:撰写 – 原始草稿、验证、方法论、研究。孙丽英:撰写 – 审阅与编辑。张帆:撰写 – 审阅与编辑、研究。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。