基于多模态模拟表征与专家混合分类器的IMU人体动作识别优化研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月12日 来源：Frontiers in Computer Science 2.7

编辑推荐：

　　本文推荐一篇创新性研究，提出Multi3Net+框架，通过跨模态对比学习整合视频、姿态（SMPL）与合成惯性测量单元（IMU）数据，结合专家混合（MoE）分类器，显著提升复杂精细动作的识别精度。研究解决了现有合成IMU数据在细微动作捕捉、人体属性建模及信息丢失方面的局限性，在OpenPack等数据集上实现性能突破，为医疗、工业等场景的穿戴式传感应用提供新范式。

1 引言

穿戴式传感器的人体动作识别（HAR）在医疗康复、工业监测等领域应用广泛，但受限于标注数据稀缺。当前研究尝试从视频合成IMU数据，但存在细微动作捕捉不足（如手腕微动）、人体属性差异（身高/体型）建模缺失以及视频-IMU信息丢失三大挑战。Multi³Net+应运而生，通过改进的Skinned Multi-Person Linear（SMPL）模型生成高保真合成IMU数据，并引入多任务对比学习框架，显著提升跨模态表征能力。

2 相关工作

IMU模拟技术：传统方法如IMUTube依赖运动捕捉（MoCap）和物理仿真（IMUSim），但仅适用于简单重复动作。新兴语言模型（如IMUGPT）通过文本生成动作，但受限于人体形态多样性。表征学习：对比学习（如CLIP）通过对齐多模态嵌入缩小域差距，但直接视频到IMU的映射仍存在精度损失。Multi³Net+通过融合SMPL参数化建模与数据增强策略，实现更鲁棒的跨模态对齐。

3 关键框架与组件

SMPL建模：通过22关节三维姿态参数和30维手部（MANO）参数，生成解剖学合理的动作序列。Blender标准化：统一骨骼坐标系（身高1.7m，足部对齐原点），消除运动数据偏差。Orient3IMU仿真：基于运动学原理计算局部坐标系下的线性加速度（公式1）和角速度（公式2），去除噪声干扰。编码器架构：文本（Instructor模型）、姿态（PoseFormer时空注意力）和IMU（多头注意力）三模态编码器联合优化，通过对比损失（公式3-5）和重构任务（公式6）学习共享表征。

4 数据生成

仿真流程：从How2Sign（手语视频）和GRAB（抓取动作MoCap）数据集提取SMPL姿态，经Blender归一化后生成合成IMU信号。保真度验证：在OpenPack数据集上，合成IMU的加速度/角速度幅值误差（MSE）较IMUTube降低32%（表1），尤其精细动作（如包装操作）的时序动态更接近真实数据（图2）。

5 Multi³Net+架构

预训练阶段：

多模态对比学习：文本-姿态-IMU三模态编码器通过InfoNCE损失（公式3）对齐，其中IMU分支独立处理左右手腕数据。
辅助任务：姿态到IMU回归（Pose2IMU）和IMU自重构（PSN架构）约束特征空间，避免信息丢失。
下游微调：采用MoE分类器动态路由特征，16专家组合使ALS-HAR数据集F1值提升5.68%（表5），显著优于传统全连接分类器。

6 实验结果

跨数据集验证：

工业场景（OpenPack）：双腕数据F1达62.8%，较基线提升23%（表2）。
健身监测（MM-Fit）：预训练数据量增至100%时，性能提升30%（图6）。
专家数影响：MoE专家数增加带来边际效益递减，16专家为性价比最优解（表5）。

7 局限性与展望

当前合成IMU成本仍高，且对工业复杂动作（如机械装配）的适应性有限。未来可探索域自适应技术和实时仿真优化，进一步缩小合成与真实数据的鸿沟。

（注：全文严格依据原文缩编，专业术语如SMPL、MoE等均保留英文缩写及符号格式，未添加非原文结论。）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号