编辑推荐:
为解决自动化通用运动评估(GMA)中婴儿姿态估计的问题,研究人员开展了不同通用及专用婴儿姿态估计器性能比较的研究。结果表明 ViTPose 表现最佳,重新训练可提升精度,顶视图比对角线视图精度更高。这为 GMA 相关研究提供了重要参考。
在神经发育研究领域,早期精准检测对于婴儿神经发育状况评估至关重要。经典生物标志物方法在早期检测发育状况或预测神经发育结局时存在局限性,此时,评估明显的神经功能就显得尤为重要。通用运动评估(General Movement Assessment,GMA)是一种依靠人类视觉感知来描绘婴儿自发运动模式的方法,在婴儿神经发育评估中应用广泛。然而,传统的 GMA 主要依赖人工观察,存在效率低、主观性强等问题。随着计算机技术和人工智能的发展,自动化 GMA 成为研究热点,但目前该领域存在诸多问题,如缺乏大规模公开婴儿数据集,现有姿态估计器多基于成人训练后直接用于婴儿,其在不同婴儿数据集上的泛化能力未知,且不同视角对姿态估计精度的影响也尚不明确。
为了解决这些问题,来自德国哥廷根大学医学中心、德国哥廷根大学、海德堡大学医院等多个机构的研究人员开展了一项研究,相关成果发表在《Scientific Reports》上。
研究人员为开展此项研究,使用了多视角无标记运动跟踪装置,对 31 名 28±2 天至 112±2 天胎龄的婴儿进行了 75 次自发运动功能记录,构建了包含 4500 帧标注图像的数据集。数据集采用 COCO 风格标注,涵盖了鼻子、眼睛、耳朵等多个关键点。在姿态估计框架选择上,研究人员选取了 4 种通用姿态估计框架,包括 OpenPose、MediaPipe、HRNet 和 ViTPose,以及 2 种专门针对婴儿训练的姿态估计框架 AggPose 和 AGMA-HRNet48,并对 ViTPose 在自有数据集上进行了重新训练。研究使用预测关键点位置与人工标注的差异(da)和正确关键点百分比(PCK)作为评估指标,通过配对样本 t 检验和 Pearson 卡方检验进行统计分析。
研究结果如下:
- 通用姿态估计器比较:在对所有通用姿态估计模型进行评估后发现,基于 COCO 测试开发数据集表现最佳的 ViTPose,在婴儿数据集上同样表现出色。与其他模型相比,它在 PCK 指标上优势明显,不过与排名第二的 HRNet-w48 相比,差距较小,如在 PCK@0.1 时,相对差距仅为 2.4%。OpenPose 虽为较老的模型,但性能仍优于 MediaPipe,MediaPipe 在所有模型中表现最差,其平均误差始终大于 10 像素。
- 婴儿专用姿态估计器评估:将重新训练的 ViTPose 与其他婴儿专用姿态估计器比较,重新训练显著提升了 ViTPose 的性能,PCK@0.05 指标下提高了 20 个百分点。而 AggPose 和 AGMA-HRNet48 表现较差,AggPose 甚至不如未重新训练的 ViTPose,AGMA-HRNet48 虽在髋部关键点上有所改进,但整体与通用 ViTPose 无显著差异。
- 视角对姿态估计的影响:研究人员分析了不同视角(对角线视图和顶视图)对姿态估计精度的影响。结果显示,顶视图的姿态估计误差明显低于对角线视图,所有模型在顶视图下的表现均优于对角线视图,差异具有统计学意义。MediaPipe 在对角线视图下性能下降最为明显,即便其数据集包含大量不同视角的健身运动图像,也未能改善这一情况。
- 针对不同视角训练的模型性能:研究人员还测试了针对特定视角训练的模型是否能提高精度。结果发现,针对单个视角训练的 ViTPose 模型与在多个视角训练的模型相比,性能无显著差异。在使用未用于训练的视角进行评估时,模型性能明显下降。
研究结论和讨论部分指出,通用姿态估计模型中,ViTPose 在婴儿数据集上表现最佳,若条件允许,应在特定数据集上重新训练模型以获得更高的姿态估计精度;若无法重新训练,应优先选择先进的通用姿态估计器。视角对姿态估计精度影响显著,顶视图在自动化 GMA 研究的录制设置中更具优势,临床研究在为人工智能和计算机视觉方法收集数据时,应考虑采用顶视图。此外,研究还发现婴儿专用姿态估计器的泛化能力被高估,当前缺乏公开可用的适合 GMA 的婴儿数据集,这可能导致模型过拟合。未来研究可进一步探索如何提高姿态估计精度对运动分类准确性的影响,以及优化标注方法以减少视角差异带来的影响。
综上所述,该研究为自动化 GMA 中姿态估计模型和视角的选择提供了重要依据,对推动婴儿神经发育评估的自动化进程具有重要意义。