骨架完整性：一种高效微调猪姿态估计模型的方法及其在动物科学中的应用

《Biosystems Engineering》：Skeleton integrity: A method for the efficient fine-tuning of pose estimation models for pigs

【字体：大中小】 时间：2026年02月10日 来源：Biosystems Engineering 5.3

编辑推荐：

　　本文报道了一种名为“骨架完整性”的新方法，旨在解决在动物姿态估计任务中，因标注成本高昂而难以获取大量训练数据的问题。研究人员针对猪的社会行为研究，通过分析预训练模型的预测骨架结构，仅需单帧标注即可智能筛选出对模型微调最具效用的关键帧。实验表明，基于该方法构建的数据集微调出的ViTPose模型，在平均精度（AP）和平均召回率（AR）上均显著优于随机选择数据集训练的模型，为解决低数据量下的模型高效微调提供了创新策略，对推动计算机视觉在动物科学中的自动化应用具有重要意义。

在传统的动物科学研究中，观察和记录动物的行为是一项极其耗时费力的工作。想象一下，研究人员需要长时间盯着录像，手动标记每一头猪是站着、躺着，还是在进行社交互动。这种工作不仅枯燥，而且容易因人为疲劳产生误差。随着机器学习和深度学习技术的发展，自动化分析成为了可能。其中，姿态估计作为一种流行的计算机视觉方法，能够通过检测动物身体上的关键点（如耳朵、肩膀、尾巴根部等）并连接成骨架，来精确推断动物的姿态，进而为行为识别奠定基础。这听起来像是动物观察员的“福音”，但现实却面临一个巨大挑战：训练一个好的姿态估计模型需要海量标注好的图片，而给视频中的每一头猪精确标注数十个关键点，其工作量是惊人的，成本高昂。

那么，有没有办法用尽可能少的标注数据，训练出性能优异的模型呢？这正是David Brunner、Marie Bordes、Elisabeth Mayrhuber、Stephan M. Winkler、Viktoria Dorfer和Maciej Oczak这几位研究人员试图攻克的难题。他们意识到，在实际应用中，研究者通常拥有大量未标注的视频数据，但可用于标注的资源和时间却非常有限。因此，核心问题转变为：如何从海量视频帧中，智能地选出那“最关键”的少数几帧进行标注，从而最大化这有限标注数据的效用，让模型通过“微调”快速适应新的场景？他们针对一项关于猪社会行为（名为“让我出去”）的观察性研究，提出了一种名为“骨架完整性”的创新数据选择方法，相关成果发表在《Biosystems Engineering》期刊上。

关键技术方法概述

本研究在奥地利维也纳兽医大学的猪研究与教学农场进行，使用两个摄像头（侧视和俯视）持续记录猪舍内猪群的活动，产生了超过540万帧原始视频数据。为解决数据选择问题，研究团队首先将视频帧率从25 fps降至5 fps以初步降采样，然后使用ResNet50卷积神经网络提取帧的特征嵌入，并通过主成分分析（PCA）降维，最后利用k-means聚类算法选出2000个最具差异性的帧构成“聚类选择”。本研究的核心创新在于后续的“骨架完整性”筛选：研究人员仅手动标注了一帧图像以获得猪身体关键点距离与体长的基准比例，然后利用预训练的ViTPose-H（超大）模型对“聚类选择”中的所有帧进行预测，通过计算每个预测骨架中躯干关键点距离比例与基准比例的差异中位数，来评估预测骨架的结构“合理性”，即“骨架完整性”。依据此分数将帧排序，并分别从高、中、低完整性（对应易、中、难样本）区域平衡抽取样本，结合人工质量检查（如排除运动模糊严重的帧），最终构建了一个包含100帧训练集、24帧验证集和36帧测试集的“骨架完整性选择”数据集。所有模型均基于MMPose框架，使用相同的超参数（600轮次，批次大小16，学习率0.005，AdamW优化器）在单个NVIDIA RTX 3090 GPU上进行训练和评估。

研究结果

2.1. 数据获取与指标

研究详细描述了实验设置、使用的ViTPose姿态估计模型、专为猪设计的22关键点骨架结构，以及评估模型性能的核心指标：平均精度（AP）、平均召回率（AR）和关键点正确百分比（PCK）。这些指标的计算依赖于对象关键点相似度（OKS）来匹配预测骨架与真实标注骨架。

2.2. 方法

本节阐述了研究所面临的“数据选择问题”：从海量视频中随机选取少量帧进行标注无法获得代表性数据，且无法针对预训练模型的弱点。为此提出的方法流程包括：降采样、聚类以获得差异化的帧集合，然后基于骨架完整性分数对这些帧进行难度分类（易、中、难），最后进行平衡选择与人工审核。

2.3. 实验

2.3.1. 数据集与实现细节

最终构建的数据集与预训练数据集进行了对比，展示了其规模更小但实例数更多的特点。数据在猪舍、摄像机视角和难度类别上均进行了分层，以确保多样性。

2.3.2. 难度类别分析

通过对“易”、“中”、“难”三类帧的视觉特征进行统计分析发现，与“易”和“中”类别相比，“难”类别中的猪实例平均分辨率更低、拥挤程度（以边界框交并比IoU衡量）更高，且可见关键点的比例略低。统计学检验表明，分辨率与拥挤程度的差异具有显著性。

2.3.3. 特征重要性研究

为了探究哪些视觉特征对模型性能影响最大，研究设计了对照实验。结果显示，关键点可见性和分辨率对模型性能（AP、AR、PCK）有显著的正向影响，即更多关键点可见或更高分辨率能大幅提升模型表现。而拥挤在未导致关键点被遮挡的情况下，对性能影响较小甚至略有积极影响，表明单纯的动物靠近可能并非主要难点。

2.3.4. 骨架完整性选择评估

这是对方法有效性的核心验证。研究人员比较了在“骨架完整性选择”数据集和从“聚类选择”中随机抽取的数据集上分别微调得到的ViTPose模型性能。结果表明，在相同训练帧数（10帧或20帧）下，使用骨架完整性方法选择数据训练的模型，在AP和AR上均 consistently 优于随机选择训练的模型。例如，使用20帧训练时，基于骨架完整性选择训练的模型在AP上提升了2.51%，在AR上提升了3.48%。这证明了该方法能够更有效地筛选出对模型改进至关重要的训练样本。

结论与讨论

本研究成功提出并验证了“骨架完整性”这一用于高效微调动物姿态估计模型的数据选择方法。该方法的核心优势在于，仅需单帧标注作为先验知识，即可在无真实标注的情况下，通过分析预训练模型预测骨架的结构合理性，智能评估海量未标注帧对模型进一步学习的“效用”，从而实现了低成本、高效益的数据筛选。

深入分析表明，该方法所区分的“难”样本，其特征主要表现为低分辨率和高拥挤度（常伴随关键点遮挡）。特征重要性研究进一步确认，低分辨率是影响本研究中预训练模型性能的首要障碍，其次是关键点可见性低。这与计算机视觉领域中关于分辨率对姿态估计任务重要性的普遍认知相符。而拥挤的影响则更为复杂，可能主要体现在增加了区分不同个体身体部位的难度上。

最终的性能评估实验有力地证明，相较于单纯保证数据多样性的“聚类选择”，结合了骨架完整性难度评估的平衡数据选择策略，能引导模型微调过程更专注于其薄弱环节，从而用更少的标注数据取得了更优的性能提升。这项研究不仅为动物科学领域的观察性研究提供了一种切实可行的低成本模型训练解决方案，其提出的“基于模型预测进行无监督数据效用评估”的核心思想，也为更广泛的机器学习领域，特别是在标注资源有限的场景下，如何优化数据选择以提升迁移学习效率，提供了有价值的参考和启发。

热点排行

新闻专题