基于视觉的多模态能量消耗估算方法,用于评估成年人的有氧运动

《Frontiers in Physiology》:Vision-based multimodal energy expenditure estimation for aerobic exercise in adults

【字体: 时间:2025年10月09日 来源:Frontiers in Physiology 3.4

编辑推荐:

  基于Transformer的双分支骨骼序列模型E3SFormer,通过动作识别分支提取的关节注意力机制优化能量消耗回归分支,结合心率等多模态数据,显著提升运动能量消耗估计精度(MRE 15.32%)。对比传统骨骼模型、视频CNN及智能手表,E3SFormer在纯骨骼输入和融合数据时均表现最优。

  在体育科学领域,准确且便捷地估算能量消耗(Energy Expenditure, EE)一直是研究的重点之一。能量消耗是衡量运动强度和频率的重要生理指标,对日常运动水平的监测、体育训练的优化以及健康行为的指导都具有重要意义。然而,传统的能量消耗估算方法,如双标水法(Doubly Labeled Water, DLW)和间接测热法(Indirect Calorimetry, IC),虽然精度高,但往往受限于设备成本高、使用条件苛刻以及难以获取实时数据等问题。此外,基于心率(Heart Rate, HR)和加速度计的估算方法虽然便于携带,但在高强度或低强度运动中存在较大的误差,且易受外部环境和个体情绪等因素影响。因此,如何利用非接触式和视觉化的方式进行能量消耗的估算,成为了当前研究的一个热点。

近年来,随着深度学习技术的迅速发展,基于视频的运动识别(Action Recognition, AR)取得了显著进展。这些方法通过分析视频中的运动特征,能够有效地捕捉人体动作的细节,从而为能量消耗的估算提供了新的思路。然而,现有的基于视频或骨骼点的运动识别方法在能量消耗估算方面仍存在一定的局限性。例如,部分方法依赖于特定的视觉场景或运动模式,难以泛化到不同个体或运动类型。此外,现有的能量消耗估算数据集往往局限于有限的运动强度或环境条件,使得模型在实际应用中面临挑战。

针对上述问题,本文提出了一种基于Transformer架构的能量消耗估算方法,称为E3SFormer(Energy Expenditure Estimation Skeleton Transformer)。该方法利用人体骨骼点序列作为输入,结合Transformer模型的强大特征提取能力,实现了对能量消耗的精准估算。E3SFormer的核心思想是通过双分支结构,同时进行运动识别和能量消耗回归。其中,运动识别分支专注于捕捉人体关节的运动模式,而能量消耗回归分支则利用这些运动特征与多模态数据(如心率和人体属性)进行融合,以提高估算的准确性和个性化程度。这种方法不仅提升了模型对运动类型的识别能力,还增强了对个体差异的适应性,为非接触式能量消耗估算提供了新的解决方案。

在数据收集方面,本文从36名健康参与者中获取了16,526个视频片段,涵盖6种常见的有氧运动类型,包括跑步、骑行、椭圆机训练、跳绳、健身操和高强度间歇训练(HIIT)。每种运动类型又细分为三种速度级别,从而构建了一个多样化的数据集。参与者在运动过程中佩戴了COSMED K5间接测热仪,用于获取真实的能量消耗数据,同时记录了心率信息和身体属性(如性别、年龄、身高、体重等)。这些数据不仅为模型训练提供了高质量的标签,也为后续的多模态融合提供了基础。此外,视频数据由EZVIZ S2摄像头以2.7K分辨率和30帧/秒的频率采集,确保了视频数据的清晰度和时间精度。

在数据预处理过程中,首先对原始视频进行了降采样处理,以减少计算负担。随后,将视频分割为10秒的片段,并结合COSMED K5的数据进行标注。对于基于动态混合室(Dynamic Mixing Chamber, DMC)和呼吸测量(Breath-by-breath, B×B)的两种能量消耗测量方式,分别采用了不同的标注策略。DMC数据可以直接用于标注,而B×B数据则通过对10秒时间窗口内的数据进行平均处理,从而得到每个视频片段的能量消耗标签。为了减少骨骼点序列中的噪声,还应用了Euro滤波器进行平滑处理,提高了骨骼点数据的稳定性。此外,通过时间对齐技术,将COSMED K5的测量数据与骨骼点序列进行匹配,从而实现对能量消耗的准确标注。

在模型设计方面,E3SFormer采用了基于Transformer的双分支结构。其核心是DSTformer(Dual-stream Spatio-temporal Transformer),通过两个不同的分支分别处理空间和时间维度的特征。其中一个分支首先在空间维度上进行自注意力计算,然后在时间维度上进行特征提取;另一个分支则相反,先处理时间维度,再进行空间维度的特征提取。这两种不同的处理顺序能够捕捉到运动过程中不同时间点和不同关节之间的关系,从而增强模型对运动模式的表征能力。两个分支的结果通过自适应权重进行融合,以动态平衡不同维度的信息。在运动识别分支中,通过自注意力机制计算出的关节注意力矩阵被用于能量消耗回归分支,以增强其对关键运动部位的关注,提高预测精度。

为了进一步提升模型的性能,本文还引入了多模态数据融合机制。除了骨骼点序列,还结合了心率和身体属性信息。心率作为运动强度的重要指标,能够反映个体在运动中的生理负荷;而身体属性(如体重、年龄等)则影响能量消耗的计算。因此,通过将这些信息与骨骼点序列进行融合,E3SFormer能够在不同的个体和运动条件下实现更精确的能量消耗估算。实验结果显示,当使用多模态输入时,E3SFormer的能量消耗估算误差(Mean Relative Error, MRE)显著降低,达到了15.32%,优于仅使用骨骼点序列的18.10%以及传统心率公式估算的18.10%。这一结果表明,E3SFormer在能量消耗估算任务中具有显著的优势。

为了验证模型的泛化能力,本文将数据集划分为训练集、验证集和测试集,并按照参与者进行划分。训练集包含22名参与者,验证集和测试集各包含7名参与者,确保了模型在未见过的数据上的表现。此外,本文还进行了消融实验,分析了不同输入方式和模型结构对能量消耗估算的影响。结果显示,仅使用骨骼点序列的模型在某些指标上表现优异,但加入多模态数据后,模型的性能进一步提升。特别是通过引入关节注意力机制,E3SFormer的能量消耗估算误差降低了超过10%,表明该机制在提高模型精度方面起到了关键作用。

此外,本文还分析了模型对不同视角的敏感性。在测试过程中,将数据集按照拍摄视角分为前、后、左与右三个子集,并分别测试模型在不同视角下的表现。结果显示,模型在左与右视角下的表现较为一致,而前视角由于样本数量较少,且包含较多复杂的运动类型(如健身操和HIIT),导致模型在该视角下的预测误差略高。这表明,尽管模型在多数情况下具有良好的泛化能力,但其对视角的敏感性仍然存在,未来可以通过增加样本数量和优化数据采集方式来改善这一问题。

在实际应用方面,E3SFormer的模型设计不仅适用于室内运动场景,也为未来在户外环境中的应用提供了可能性。然而,目前的模型在实时性方面仍有提升空间。由于E3SFormer的输入是骨骼点序列,而不是原始视频,因此在实际部署中需要额外的预处理步骤,包括视频剪裁、骨骼点提取和数据滤波。这些预处理步骤虽然提高了模型的精度,但也增加了计算时间。例如,在当前的实验条件下,E3SFormer对300帧的视频片段进行推理的时间约为0.08至0.20秒,但包括预处理和骨骼点提取在内的整体流程仍需要4.3至6.0秒。因此,未来可以通过模型量化、剪枝、知识蒸馏等技术进一步优化模型的实时性能,以提高其在实际产品中的适用性。

本文的研究不仅在方法上有所创新,还在数据集构建方面做出了重要贡献。通过收集大量高质量的运动视频和能量消耗数据,本文建立了一个适用于多种运动类型的基准数据集。该数据集的建立为后续研究提供了重要的基础,同时也推动了非接触式能量消耗估算的发展。此外,E3SFormer的提出展示了Transformer架构在运动分析任务中的潜力,为未来的研究提供了新的方向。

综上所述,本文通过构建一个包含16,526个视频片段和真实能量消耗标签的基准数据集,提出了基于Transformer架构的E3SFormer模型,实现了对能量消耗的精准估算。实验结果表明,该模型在纯骨骼点输入和多模态输入两种情况下均表现出优异的性能,特别是在结合心率和身体属性的情况下,其能量消耗估算误差显著降低。同时,模型在不同视角下的表现也显示出一定的鲁棒性,尽管在某些情况下仍存在一定的偏差。未来的研究可以进一步优化模型的实时性,扩大数据集的覆盖范围,并探索其在户外环境和实际产品中的应用潜力。本文的研究成果为非接触式能量消耗估算提供了一个新的方法框架,具有重要的理论和实践价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号