
-
生物通官微
陪你抓住生命科技
跳动的脉搏
LiFT:基于视觉-语言Transformer的轻量化健身监测系统实现远程规模化运动分析与重复计数
【字体: 大 中 小 】 时间:2025年09月12日 来源:Smart Health CS7.7
编辑推荐:
本文介绍了一种仅使用RGB智能手机摄像头即可实现远程运动监测的轻量化AI系统(LiFT)。该系统通过3D人体姿态估计(3D HPE)技术提取骨骼关键点,结合视觉-语言Transformer模型,在涵盖1900余种动作的大规模数据集Olympia上实现了76.5%的运动识别准确率和85.3%的重复计数容错精度(off-by-one),为普惠化AI健身监测提供了重要技术突破。
Highlight
我们的方法首次实现了基于3D HPE骨骼数据的多任务运动分析,通过视觉-语言联合建模同时完成运动类型识别和重复次数统计。与传统依赖手工特征或模板匹配的方法不同,LiFT能够捕捉运动片段与文本描述间的细粒度关联,在数百种动作上展现卓越的泛化能力。
Related work
现有健身分析模型通常局限于30种以内动作,且依赖手工特征或模板方法,难以泛化到多样化的运动模式。而大多数运动-语言模型基于视频像素而非骨骼数据构建,缺乏对物理约束关节角度的建模能力。
Overview
如图1所示,我们首先通过MotionBERT从RGB视频中提取3D关键点,并将所有骨骼序列整合为单一"图像"。模型通过最小化多类交叉熵损失函数(公式1)学习骨骼运动与自然语言标签的关联。训练时每个批次同时包含重复计数和运动识别任务。可训练模型包含:(a)线性投影层;(b)时空编码器;(c)任务特定输出头。
Results
我们采用两种指标评估重复计数性能:容错精度(OBO)和平均绝对误差(MAE)。容错精度计算公式为:
OBO = (1/V) ∑i=1V [ |countpredi - countgti| ≤ 1 ]
其中V为测试视频数量,countpredi为模型预测值,countgti为真实标注值。
Conclusions
本研究提出的多任务运动分析模型在运动规模和任务复杂度上均超越现有方法。通过融合多模态视觉-语言表征和大规模在线健身数据,我们的模型在数百种动作上展现出强大的泛化能力,为AI驱动的普惠化健身监测奠定了技术基础。
生物通微信公众号
知名企业招聘