"MarmoPose：基于深度学习的非人灵长类动物多目标实时三维姿态追踪系统及其在行为神经科学中的应用"

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年02月19日 来源：Cell Reports Methods 4.3

编辑推荐：

　　本研究针对非人灵长类动物（NHP）行为研究中三维姿态追踪的实时性与多目标识别难题，开发了名为MarmoPose的深度学习系统。该系统通过四摄像头采集普通狨猴（Callithrix jacchus）在自由活动状态下的多视角视频，结合改进的RTMDet检测模型和RTMPose姿态估计模型，首次实现了多狨猴16个身体部位的3D坐标实时追踪（误差<10%体长），并集成去噪自编码器（DAE）与骨骼先验模型解决遮挡问题。研究突破现有系统离线处理的局限，支持基于3D姿态的闭环实验控制，为神经机制研究提供新工具，发表于《Cell Reports Methods》。

在神经科学研究中，普通狨猴因其脑结构与认知能力接近人类、繁殖周期短等优势，已成为替代猕猴的重要模式动物。然而，传统行为研究多依赖人工观察或运动约束装置，难以捕捉自由活动状态下的自然行为细节。更棘手的是，这种高度社会化的动物常以群体形式活动，其快速三维运动与频繁肢体遮挡使得现有系统（如DeepLabCut、SLEAP）仅支持离线单目标分析，无法满足实时多目标追踪需求。这种技术瓶颈严重制约了社交行为量化、基因-行为关联等研究的发展。

针对这一挑战，清华大学的研究团队开发了MarmoPose系统。该系统通过四台固定于饲养笼顶角的摄像头采集视频，采用两阶段深度学习框架：先通过改进的RTMDet模型检测狨猴边界框及身份（利用耳部染色区分个体），再经RTMPose模型预测16个身体关键点（如头、肘、尾等）的2D坐标。多视角数据通过随机抽样一致（RANSAC）三角测量重建3D坐标，并创新性地引入狨猴骨骼先验模型（测量自3只成年个体），通过去噪自编码器（DAE）估计遮挡部位坐标。研究构建了包含3,173张标注图像的Marmoset3K数据集和522例3D真值的Marmoset3D数据集用于模型训练与验证。

研究结果显示三大突破性进展：

多目标实时追踪性能
系统在四摄像头配置下以82 fps处理4只狨猴视频，延迟<40 ms。对比实验表明，其3D重建准确率显著优于SLEAP+三角测量组合（以20 mm误差阈值为例，头部95% vs 85%，肢体68% vs 35%），且接近人工标注变异水平（头部中位误差2.82 mm vs 人类1.12 mm）。
遮挡处理与适应性优化
通过DAE与骨骼约束，系统能有效估计遮挡部位坐标（如尾部误差8.75 mm）。在新增狨猴或复杂环境场景中，仅需100张标注图像微调检测模型即可保持识别准确率（95.0% vs 原93.2%）。
行为解析与闭环控制
通过t-SNE聚类180,000帧姿态数据，系统自动识别出站立、跳跃等8种典型行为。在实时实验中，通过计算耳部中点至头部的向量方向，成功实现"左视播放音乐"的闭环声刺激控制。

讨论指出，MarmoPose是首个支持多NHP实时3D姿态追踪的系统，其创新性体现在三方面：

方法学上 将骨骼生物力学先验融入深度学习框架，突破传统纯数据驱动模型的局限性；
技术上 通过TensorRT半精度部署实现毫秒级响应，为光遗传学等时间敏感实验提供可能；
应用上 用户友好设计使其在标准饲养笼中即插即用，避免复杂改装。

研究局限性包括耳部标记的必要性，以及密集互动时肢体区分精度待提升。未来工作可结合表面肌电进一步细化运动表征。该成果为狨猴社交行为、疾病模型表型分析等研究提供了变革性工具，尤其对探索基因修饰个体的神经行为异常具有重要价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号