MediaPipe姿态估计在姿势评估中的深度探索:一项与标记系统和RGB-D参考的对比研究
《IEEE Access》:A Deep Dive Into MediaPipe Pose for Postural Assessment: A Comparative Investigation
【字体:
大
中
小
】
时间:2025年12月19日
来源:IEEE Access 3.6
编辑推荐:
本刊编辑推荐:为解决无标记姿态估计在临床姿势评估中的性能验证问题,研究人员开展了针对Google MediaPipe Pose (MP) 2D和3D模型的系统性评估。研究将其与标记式金标准(OPTO)和基于Azure Kinect (AK)的RGB-D参考系统进行对比,通过静态站立任务计算五类角度和线性测量参数。结果表明,3D MP模型性能随复杂度增加而意外下降,高复杂度模型(MP_2_3D)会引入严重失真和不对称性;所有2D模型在额状面分析中表现优异。研究揭示了RGB-D系统精度与RGB模型可及性之间的权衡,为特定姿势评估应用选择合适模型提供了详细建议,指出当前3D MP模型需谨慎用于定量姿势评估,而2D模型是许多轻量级前视应用的有效选择。
在当今的医疗健康和运动科学领域,定量评估人体姿势及其控制能力对于诊断、监测和治疗策略至关重要。良好的姿势排列是肌肉骨骼健康和中枢神经系统完整性的关键指标,其异常往往与潜在的病理状况相关。尽管姿势与平衡密切相关,但两者并非等同:良好的姿势不可能与差的平衡共存,但通过代偿策略,即使在姿势不佳的情况下也可能实现良好的平衡。因此,直接从姿势角度测量中获得的信息对于疾病进展中异常的早期检测或康复治疗引起的变化追踪尤为重要。
然而,量化这些角度测量具有挑战性,在常规临床实践中较少应用。过去几十年中,虽然出现了多种技术来准确评估姿势改变,例如基于摄影的姿势评估、直接测角仪测量以及光电子系统等,但它们各有局限。光电子系统虽是临床运动分析的“金标准”,但其高成本、需要专用空间和专业人员等缺点限制了其在临床和研究实验室的广泛应用。近年来,人们对用于运动分析的新数字技术兴趣日益增长,包括可穿戴传感器和基于视觉的低成本方法。特别是RGB-D相机(增强版RGB相机,具备深度估计功能)使得3D运动分析更易实现,并促进了高精度无标记解决方案的发展。
最近,仅需标准RGB输入即可运行的人体姿态估计(HPE)框架代表了无标记运动分析的最新进展。这些下一代方法依靠复杂的深度学习算法和架构从图像像素中识别解剖关键点的空间位置,并生成3D骨骼模型。其中,Google MediaPipe Pose (MP) 是一个开源算法,可从仅RGB源(图像或视频)跟踪33个身体标志点,有效提供2D(图像坐标)和3D(世界坐标)骨骼模型。与其他HPE框架相比,MP的主要优势在于其高度优化和轻量级的流水线,能够实现实时检测和跟踪。
尽管对MP的兴趣日益增长,但在评估其进行全面姿势分析潜力方面存在研究空白,特别是其可定制模型复杂度的影响尚未得到研究,以确定它们作为标记式或深度相机系统替代方案的可靠性。因此,本研究的主要目标是系统评估MP模型(2.5D和3D,不同复杂度)在静态姿势分析中的准确性、可靠性和对称性保持能力。为了实现这一目标,本研究探索了几种角度类别,并将它们与标记式金标准系统和基于Microsoft Azure Kinect (AK)的参考RGB-D系统进行了基准测试。
为了开展这项研究,研究人员分析了在REHOME项目内收集的实验试验子集。该项目开发了一个基于单个RGB-D相机的便携式运动捕捉系统,用于定量评估健康者和患者的运动技能和运动功能障碍。本研究仅纳入健康受试者的试验,共有24名健康成年志愿者参与。姿势评估方案包括40秒的安静站立试验,受试者睁眼,手臂放松置于身体两侧。每个参与者完成四次姿势任务,两次使用标记式解决方案,两次使用REHOME无标记相机解决方案。
数据采集使用金标准光学运动捕捉系统(OPTO)和基于Azure Kinect (AK)的系统。OPTO系统使用六个红外相机跟踪标记点,遵循完整的Plug-In Gait生物力学模型。AK系统使用专有的身体跟踪算法估计具有33个关节的3D骨骼模型。此外,使用MediaPipe v0.10.24离线处理AK采集期间记录的RGB视频,以估计包含33个标志点的骨骼模型。研究配置了三个网络复杂度级别(0、1、2),并为每个复杂度级别提取了3D世界坐标骨架和2.5D图像平面坐标骨架。最终,评估了八种无标记模型(KIN_3D, MP_0_3D, MP_1_3D, MP_2_3D, KIN_2D, MP_0_2D, MP_1_2D, MP_2_2D),并将其与OPTO金标准参考进行比较。
数据预处理包括选择每个40秒记录中的中央25秒段以专注于最大姿势稳定性,将所有信号重采样到50 Hz,并应用两级滤波过程(10样本移动平均滤波和10 Hz截止频率的四阶巴特沃斯低通滤波)进行降噪。从预处理后的3D轨迹中计算了五组相同的姿势参数:水平角度(量化额状面双侧身体点连接段的水平对齐)、垂直角度(量化额状面主要身体段相对于垂直轴的侧向弯曲)、矢状面角度(量化矢状面身体段相对于Z轴的前后倾斜)、关节角度(测量连接特定解剖点的身体段之间的3D角度,分左右侧评估)和段长度(量化关键身体段的长度,分左右侧评估)。使用平均绝对误差(MAE)、测量标准误差(SEM)、最小可检测变化(MDC95)、Bland-Altman分析(测量偏倚和95%一致性界限)和对称性指数(SI)等统计指标进行比较。
水平角度量化额状面连接双侧身体点(肩、髋、膝、踝)的段对齐情况。
在3D模型中,KIN_3D表现出最佳且最平衡的性能,所有段的MAE持续低于1.5°。3D MP模型表现各异:MP_0_3D在肩、髋和膝部具有竞争力,但踝部精度下降(MAE > 5°);MP_1_3D在近端段表现与MP_0_3D相当,但膝和踝部性能显著下降;出乎意料的是,MP_2_3D在所有段均表现不佳,膝角MAE高达22.6°,存在显著系统偏倚。2D模型提供了有竞争力的准确性,其MAE值与最佳3D模型相当,仅SEM和MDC95指标略有增加。雷达图显示,KIN_3D轮廓最小最规则,而MP_2_3D轮廓最大最扭曲,2D模型轮廓聚集且相对对称。结论是,KIN_3D是高精度应用的最佳选择,MP_0_3D是可行的替代方案(需注意踝部),2D模型是简单快速部署的绝佳替代方案,MP_1_3D需谨慎使用(尤其远端段),MP_2_3D不推荐用于水平角度测量。
垂直角度测量额状面主要身体段相对于垂直轴(Y)的侧向弯曲。
对于躯干(V_TRUNK)和下肢(V_ANKLE)侧倾的测量,所有无标记模型(2D和3D)均表现出色,MAE值几乎持续低于2°,系统偏倚极小,LOA狭窄。然而,头部角度(V_HEAD)的估计揭示了大多数无标记模型的显著系统差异。除KIN_3D (MAE < 2°)外,所有其他模型的MAE值均大于2°,MP_2_3D峰值达9.15°。Bland-Altman分析显示误差几乎完全源于高系统偏倚,而随机变异性较低,这很可能是由于OPTO系统(前额标记)和无标记模型(估计不同位置的标志点或质心)对头部参考点的定义存在固有差异。条形图直观总结了这种双重性能。结论是,KIN_3D在所有身体段上提供了最佳整体性能。对于躯干和下肢,3D和2D模型是高度推荐的可靠替代方案。关于绝对头部倾斜的估计,所有其他模型都表现出系统偏倚,尤其在MP_2_3D中更为明显。尽管如此,这些模型在分析头部运动的相对变化(如摇摆范围)时仍然有效,前提是不解释绝对角度值。
矢状面角度量化矢状面(ZY)身体段相对于Z轴的前后倾斜。
分析发现测量误差几乎是系统性的,而非随机的。3D模型表现各异:KIN_3D表现出一致的系统偏移模式,上段(躯干和头部)为负偏倚,下段(膝和踝)为正偏倚,这种可预测模式表明误差源于生物力学模型定义的差异。3D MediaPipe模型 (MP_0_3D, MP_1_3D, MP_2_3D) 显示出显著的正偏倚,在头部和踝段尤为突出,这些误差可能源于使用RGB源和基于学习的3D方法准确估计Z分量(深度)的已知挑战。2D模型在所有段和模型上呈现出显著均匀的系统误差模式,偏倚值几乎恒定,一致性界限紧凑,表明偏移是几何投影效应的结果。雷达图直观证实了矢状面角度的这些系统性误差的大小和性质。误差的高度系统性为偏移校正提供了直接方法,从而使所有模型在临床应用中可用于矢状面角度的定量评估。总结而言,KIN_3D是矢状面角度测量最可靠的选择,其偏倚可预测、均匀且稳定,允许跟踪矢状面姿势的相对变化,并应用模型特定校准来消除偏移。3D MediaPipe模型表现出大且可变的阳性偏倚,随着模型复杂度的增加而反直觉地增加,不建议从前视摄像头进行矢状面角度估计;可能需要侧视图来提高矢状面姿势评估的可靠性。2D模型在所有段上显示出均匀一致的系统误差,可通过分段特定校准来解决。
关节角度测量连接特定解剖点的身体段之间的3D角度。
分析的一个主要发现是所有2D模型无法从前视图准确测量膝屈曲,即使添加了Z分量,这些模型计算出的膝角度接近180°,未能捕捉到站立时膝部的轻微生理屈曲。这是因为对于2D模型,膝关节从前视图看是完全笔直的;下肢的侧视图可能允许更精确地估计膝角度。然而,对于肩和髋角度,2D模型在额状面仍然可行,性能与3D对应物相当。正如预期,3D模型通常优于2D替代方案,特别是在深度信息至关重要的膝角度方面。KIN_3D表现出最一致的性能,标准差最低(尤其在髋部),表明关节位置估计具有卓越稳定性。MP_0_3D提供了平衡的折衷,具有竞争性的MAE值和良好的对称性保持。MP_1_3D表现出中间性能,变异性增加。MP_2_3D表现出最多变的性能,其对称性差降低了其用于双侧比较的可靠性。对称性指数(SI)分析显示,大多数模型在所有关节角度上保持了良好的对称性(SI > 0.89)。最关键的发现是MP_2_3D性能差,表现出最明显的不对称性,特别是在髋部(SI = 0.939)。散点图证实了这些发现,MP_2_3D是一个明显的异常值,经常结合高误差和低对称性。建议是:KIN_3D和MP_0_3D模型提供了最佳整体性能,结合了合理的准确性和强大的对称性保持。MP_1_3D模型在角度测量方面略有下降,尤其在髋部,同时保持了可接受的对称性。应避免使用高复杂度MP_2_3D模型进行关节角度分析,特别是在量化双侧不对称性时。2D模型适用于从前视图进行肩部和髋部分析,但不适用于膝角度评估。
该分析通过比较关键身体段的线性测量来量化底层骨骼重建的差异。
一个主要发现是,所有3D无标记模型与OPTO参考相比, consistently 低估了段长度和宽度,平均绝对差异范围从1.3厘米到9.0厘米。关于肩宽(SHOULD),所有模型提供了良好的近似,差异最小。对于髋宽(HIP),KIN_3D显示出显著低估(-6.9厘米),反映了AK特定的骨骼配置(髋关节位置更近)。总体而言,MediaPipe模型在该段上更接近OPTO,MP_1_3D表现最佳。躯干长度(LTRUNK和RTRUNK)的差异适中。3D MediaPipe模型在近似肩到髋距离方面通常优于KIN_3D。下肢段(UPLEG和LEG)在所有3D模型中显示出最显著的差异。双侧段SI分析显示,KIN_3D保持了最好的双侧一致性,是最稳定和对称的3D模型。相比之下,MP_2_3D表现出最明显的不对称性,尤其在上腿部(UPLEG)。为了确定3D MediaPipe模型中的不对称性是源于2D标志点跟踪还是3D重建过程,分析了2D图像坐标中的段长度和双侧段的对称性指数。2D分析提供了一个关键见解:所有2D模型,包括所有MediaPipe变体,都保持了极高的双侧对称性(SI > 0.99)。这是关键发现:在较高复杂度的3D MediaPipe模型(特别是MP_1_3D和MP_2_3D)中观察到的不对称性并非源于2D跟踪。底层2D标志点检测是稳定和对称的。误差是在提升过程中有效引入的。
分析揭示了3D MediaPipe模型的关键问题,随着模型复杂度的增加,性能逐渐下降。
这种提升过程依赖于GHUM人体模型,这是一种统计人体表示,训练于大量3D人体扫描数据以捕捉合理的姿势。该模型试图将2D关节拟合到最可能的3D姿势。然而,由于多个3D姿势可能对应于相同的2D表示,在深度模糊或遮挡的情况下,3D重建是欠约束的。因此,即使2D关键点中小的帧间变化或抖动也可能传播并放大成不现实的3D变形。为了直观说明这些批评,研究人员渲染了同一视频帧中所有MP模型的3D骨骼重建。正视图、侧视图和顶视图证实了随着复杂度增加,模型明显退化。正视图显示逐渐的错位和不对称。侧视图显示MP_2_3D在髋部位置异常,双侧段对齐差。顶视图提供了最令人信服的失败证据:MP_2_3D严重扭曲,显示上下身两个明显的相反旋转,且标志点在Z轴上更分散,产生扁平化重建而非稳定的直立姿势。这一视觉证据证实了定量研究结果。
研究的讨论部分指出,姿势评估对于各种医疗保健应用的诊断和监测至关重要。标记式光学运动捕捉系统是运动分析的“金标准”,但其高成本、操作复杂性和实验室要求使其在临床实践中广泛使用不切实际。这推动了对远程医疗和无监督使用的无标记替代方案的兴趣。RGB-D传感器(如Microsoft Kinect)在运动和姿势分析中已表现出良好的准确性。然而,RGB-D传感器的迅速停产和计算需求阻碍了其广泛使用。这强化了使用仅RGB无标记模型的潜力。Google MediaPipe Pose (MP) 是一个有前途的下一代替代方案,可从标准RGB视频流实现实时身体跟踪,计算开销最小,无需专用硬件,非常适合远程医疗。然而,MP用于3D姿势评估的潜力仍有待探索。先前的研究主要集中于2D应用,忽略了可提供更精确相机无关测量的3D骨骼模型的可用性。本研究通过系统评估2.5D和3D MP模型的准确性、可靠性和对称性,并将其与标记式金标准和领先的医疗RGB-D解决方案Microsoft Azure Kinect进行基准测试,来弥补这一空白。
本研究的主要发现包括:在额状面对齐分析中,KIN_3D模型在精度和可靠性方面保持优势,2D模型提供了竞争性能,挑战了3D重建固有优于额状面测量的常见假设。一个关键且反直觉的发现是,3D MediaPipe模型在水平角度方面的性能随着模型复杂度的增加而系统性地下降。矢状面角度的测量对所有无标记模型提出了最大挑战,它们均表现出显著的系统偏倚,但这些误差是高度一致和可预测的,因此可通过校准来校正。关节角度分析强调了解剖点定义对测量结果的显著影响,3D模型有效保持了双侧对称性,而2D模型在从前视图评估膝屈曲方面存在几何限制。段长度分析为所有先前的发现提供了基本背景,揭示了骨骼模型之间的内在差异,并关键性地发现高复杂度MediaPipe模型中的不对称性源于3D重建过程而非2D跟踪。
总体模型性能揭示了深度传感硬件的高精度与仅RGB模型的广泛可及性之间的明显权衡。KIN_3D模型始终提供最准确可靠的性能,是全面高精度3D姿势评估的最稳健无标记解决方案。当前的3D MediaPipe模型必须谨慎使用。低复杂度MP_0_3D提供了一个合理的折衷方案,而增加模型复杂度并不能保证更好的性能。2D模型,包括来自MediaPipe的模型,被证明是额状面分析的有效且可靠的替代方案,在准确性、可靠性和易用性方面提供了最佳平衡。
本研究也存在一些局限性,包括仅关注健康参与者、仅限于静态站立任务、单相机前视图和受控实验室条件、与OPTO和AK的异步记录、以及结果与特定软件版本相关等。未来的改进策略包括多相机解决方案、多传感器融合、自适应校准算法、基于AI和可解释AI(XAI)的模型、结合多模态和额外生物力学约束的创新架构等。
综上所述,这项全面的评估表明,虽然当前没有无标记模型能够完全复制标记式金标准的精度,但当其优缺点与应用程序适当地匹配时,有几个是临床可行的替代方案。KIN_3D模型仍然是全面高精度3D姿势评估最稳健的无标记解决方案。当前的3D MediaPipe模型必须谨慎使用。2D模型被证明是额状面分析的有效可靠替代方案,为大规模监测或远程医疗等应用提供了准确性和简单性的最佳平衡。虽然有必要在这些发现的基础上进行改进,实施改进策略并解决讨论的局限性,但本研究可以指导临床医生将最合适的无标记模型与正确的姿势评估应用相匹配。它为获得可靠和客观的测量提供了强有力的循证基础,为未来在患病人群中的验证铺平了道路。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号