猪姿态估计：关键点配置与神经网络架构的对比分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Smart Agricultural Technology》：Pose estimation in pigs: comparative analysis of keypoint configurations and neural network architectures

【字体：大中小】 时间：2026年06月14日 来源：Smart Agricultural Technology 5.7

编辑推荐：

　　准确的姿态估计对自动化家畜监测至关重要，特别是在群养猪中，遮挡、动物重叠和可变朝向使得关键点检测复杂化。本研究评估了关键点配置和神经网络架构对群养肥育猪姿态估计性能的影响。研究人员首先在DeepLabCut中使用ResNet-50比较了五种骨骼配置：标准7关键

准确的姿态估计对自动化家畜监测至关重要，特别是在群养猪中，遮挡、动物重叠和可变朝向使得关键点检测复杂化。本研究评估了关键点配置和神经网络架构对群养肥育猪姿态估计性能的影响。研究人员首先在DeepLabCut中使用ResNet-50比较了五种骨骼配置：标准7关键点模型和四种扩展配置，分别包含额外的耳廓、背体、眼部或尾相关标志点。BODY5P配置在背体中轴线上包含五个解剖学分布的标志点，获得了最佳的总体测试性能，其平均精度均值（mAP）最高（75.12 ± 1.42%），均方根误差（RMSE）最低（7.43 ± 0.43 px），表明始终可见的背部标志点可提高群养条件下的鲁棒性。随后，研究人员使用更大的标注数据集和重复训练-测试评估比较了五种神经网络架构。HRNet-W32获得了最高精度（测试mAP：92.52%；RMSE：7.93 ± 0.36 px），而轻量级DLCRNet架构训练速度更快且展现了具有竞争力的测试性能，表明其在资源受限或需要频繁重新训练的养殖场应用中具有潜力。对独立15分钟视频的高置信度预测进行时间分析显示，大部分背部标志点跟踪稳定，而鼻部的丢失率最高（约46%）。探索性空间分析表明，姿态输出可支持占用图绘制和尾-鼻接近度分析，尽管接近事件应被解释为候选相互作用指标而非确认咬尾事件。总体而言，这些结果凸显了在设计猪行为监测姿态估计流程时，平衡解剖学相关性、标志点可见性、模型准确性和计算效率的重要性。

本研究旨在解决群养肥育猪自动化行为监测中的关键方法论问题。在现代化养猪业中，攻击行为和咬尾行为仍是动物福利与生产管理面临的主要挑战，会导致兽医成本增加、生长性能下降、死亡率升高以及胴体降级等经济损失。传统人工观察存在劳动强度大、主观性强等局限，而基于深度学习（Deep Learning, DL）的姿态估计技术为自动化、非侵入性监测提供了新途径。尽管计算机视觉在牲畜行为分析中已取得进展，但在群养猪姿态估计领域，关键点配置如何影响性能、不同神经网络架构在相同实验条件下的直接比较，以及姿态估计输出对下游行为分析的实用价值等问题尚缺乏充分探索。

针对上述问题，研究人员在瑞士Agroscope实验猪 facility开展研究，以12头去势长白公猪为对象，使用6台松下I-Pro Mega Super Dynamic WV-SW316L监控摄像机进行视频采集，最终从5号摄像机视角选取1,834个15分钟视频片段用于分析。所有猪只均 intact tails，符合瑞士动物保护条例规定。

在关键点配置比较阶段，研究人员定义了五种骨骼模型：标准7关键点模型（STD）以及增加耳廓标志点的EAR3P、增加背体标志点的BODY5P、增加眼部标志点的EYES2P、增加尾相关标志点的TAIL2P。所有配置均在相同的500张图像集上标注，采用ResNet-50作为基准架构，按80:20划分训练集（400张）和测试集（100张）。

在神经网络架构比较阶段，基于BODY5P配置，研究人员评估了HRNet-W32、DLCRNet S32、DLCRNet S16、ResNet-50和ResNet-101五种架构。通过k-means聚类算法从10个视频中各选取100帧代表性图像，构建1,000帧数据集，采用10次重复的95:5训练-测试分割策略。所有模型基于PyTorch/TensorFlow框架，在配备NVIDIA Tesla T4 GPU（16 GB显存）的虚拟机上训练，使用随机梯度下降（SGD）优化，最多100,000次迭代。

性能评估采用多项互补指标：均方根误差（RMSE）、置信度过滤RMSE（RMSE_{p_cutoff}，p_cutoff = 0.6）、基于检测的误差（RMSE_detections、RMSE_{detections_p_cutoff}）、平均精度均值（mAP，ε = 5 px）和平均召回率均值（mAR）。后续 temporal 分析使用HRNet-W32和BODY5P组合对独立15分钟视频进行，计算各关键点的丢失率（dropout）、速度（velocity）和加加速度（jerk）。空间行为分析则基于高置信度检测（p_i ≥ 0.9）生成二维占用热图，并分析尾-鼻接近事件。

关键点配置比较结果显示，BODY5P配置表现最优，测试mAP达75.12 ± 1.42%，RMSE为7.43 ± 0.43 px，mAR高达90.15 ± 1.18%，RMSE_detections和RMSE_{detections_p_cutoff}均为最低，表明背体解剖学分布标志点提供了稳定且抗遮挡的跟踪框架。相比之下，EAR3P表现最差（测试RMSE：52.30 ± 3.15 px，测试mAP：51.88 ± 2.24%），TAIL2P和EYES2P虽训练精度高但测试性能下降，反映小而移动的标志点在群养条件下的检测挑战。

神经网络架构比较结果显示，HRNet-W32测试mAP最高（92.52%），RMSE最低（7.93 ± 0.36 px），mAR达93.59%，体现其高分辨率表示在整个网络中保持的优势。DLCRNet S32测试RMSE为8.91 ± 1.24 px，mAP为89.93%；DLCRNet S16测试mAP为90.59%。ResNet-101测试mAP为88.77%，ResNet-50为88.15%。值得注意的是，HRNet-W32训练时间最长，是DLCRNet的4.3至7.5倍，而DLCRNet模型收敛最快但损失函数最终值较高，体现计算效率与预测精度之间的权衡。

时间一致性与跟踪可靠性分析显示，头部和多数背体标志点丢失率在18%至29%之间，而鼻部丢失率最高（46.0%）。尾部丢失率为31.8%，右耳为32.9%，Body3为31.6%。速度方面，尾部和鼻部约17 px/帧，Body2和Body4约26 px/帧。速度标准差以鼻部（约7-8 px）和尾部最低，Body2和Body4最高（约10 px）。加加速度数量级为10^-4 px/帧²，标准差极小，表明大多数实例中运动轨迹平滑。

空间行为分析的二维占用热图显示围栏使用存在明显不对称性，左侧靠近固定稻草篮区域占用浓度最高，中央和右侧区域活动更为弥散和短暂。尾-鼻接近事件的探索性分析中，50 px阈值用于识别可能对尾部区域的空间注意，20 px阈值用于识别更严格的近距离接触候选事件。两种阈值下均观察到接近事件在围栏边界和先前识别的热点区域附近空间聚集，但这些事件应被视为探索性空间指标而非验证的咬尾行为。

研究讨论部分进一步阐释了上述发现的方法学意义和实际应用考量。研究人员指出，最佳总体定位精度的配置不一定最适合所有下游行为任务，咬尾检测尤其依赖于鼻部和相关标志点的可靠定位。HRNet-W32虽精度最高但计算成本显著，DLCRNet等轻量级架构在资源受限环境中具有部署优势。时间分析揭示的鼻部高丢失率问题，需要通过增加训练数据多样性、采用多视角摄像机和针对性数据增强策略加以改善。空间分析表明姿态估计输出可为行为监测提供基础，但需结合手动标注行为事件、时间序列建模和监督式行为分类以区分偶发接近与真正的尾导向行为。

研究结论明确指出：骨骼模型设计显著影响群养猪姿态估计性能，BODY5P在定位精度、解剖学覆盖度和鲁棒性之间提供了最佳平衡；HRNet-W32准确性最高且定位性能最稳定，而DLCRNet等轻量级模型训练速度显著更快且泛化可靠，适合便携系统和自动化农场监测设置；姿态估计输出可为跟踪可靠性、空间使用和候选社交互动提供有用指标，但尾-鼻接近度应作为探索性空间指标而非验证的咬尾检测系统；未来工作应致力于扩展标注训练数据的多样性和规模、提高视频分辨率和时间采样率、整合多视角摄像机和自动化身份跟踪、以及将姿态估计与手动标注行为事件相结合，以支持真实农业环境中福利相关行为的可靠检测。

联系信箱：

粤ICP备09063491号

热点排行