MADiff：一种基于运动感知的曼巴扩散模型，用于在以自我为中心的视频中预测手部轨迹

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Pattern Analysis and Machine Intelligence》：MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos

【字体：大中小】 时间：2025年11月25日 来源：IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6

编辑推荐：

　　手轨迹预测在主观视角视频中面临摄像机 ego 运动干扰和缺乏显式 affordance 标签的双重挑战，MADiff 通过扩散模型与运动感知 Mamba 架构，融合视觉-语言特征实现无监督意图建模，实验验证其优于基线方法。

摘要：

通过以自我为中心的视频来理解人类的意图和行为，对于实现具身人工智能至关重要。作为以自我为中心的视觉技术的一个分支，手部轨迹预测在理解人类运动模式方面发挥着重要作用，从而有助于扩展现实和机器人操控等下游任务。然而，当仅使用以自我为中心的视频时，捕捉与合理时间因果关系一致的高层次人类意图是具有挑战性的。在相机自身运动干扰以及缺乏明确指导手部路径点分布优化的可供使用性标签的情况下，这一难度进一步加剧。在这项工作中，我们提出了一种名为MADiff的新手部轨迹预测方法，该方法利用扩散模型来预测未来的手部路径点。我们在潜在空间中设计了去噪操作，通过我们提出的具有运动感知功能的Mamba实现这一过程，其中整合了相机佩戴者的自身运动以实现运动驱动的选择性扫描（MDSS）。为了在缺乏明确可供使用性监督的情况下辨别手部与场景之间的关系，我们利用了一个基础模型，该模型融合了视觉和语言特征以从视频片段中捕捉高层次的语义。在五个公共数据集上进行的全面实验表明，与现有的最佳基线方法相比，MADiff预测的手部轨迹相当合理。我们已在项目页面上发布了MADiff的代码和预训练模型：https://irmvlab.github.io/madiff.github.io。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号