基于骨架动作识别的医疗机器人辅助交接技术研究

《International Journal of Computer Assisted Radiology and Surgery》:Action recognition in medical environments for robotic assistance

【字体: 时间:2025年11月25日 来源:International Journal of Computer Assisted Radiology and Surgery 2.3

编辑推荐:

  本文推荐一项针对医疗环境中人机协作难题的创新研究。为解决手术室(OR)和病房(Ward)场景下医疗物品交接的自动化需求,研究团队开展了基于骨架信息的人类动作识别(HAR)技术应用探索。通过比较ST-GCN、CTR-GCN和SkateFormer三种算法在专用数据集上的表现,结果显示SkateFormer在病房场景获得0.941±0.009的F1值,ST-GCN在手术室场景达到0.736±0.045的F1值。该研究为医疗机器人通过隐式 cues实现流畅协作奠定了重要技术基础。

  
在现代医疗环境中,团队协作是保障医疗质量的核心要素。然而,随着医疗专业人员短缺问题日益严峻,如何将机器人系统无缝集成到医疗团队中成为重要课题。特别是在手术室和病房场景中,医疗物品的交接过程需要高度默契的配合,而现有机器人系统往往缺乏对人类行为意图的敏锐感知能力。这正是慕尼黑工业大学研究团队在《International Journal of Computer Assisted Radiology and Surgery》发表的最新研究着力解决的问题。
医疗场景中的机器人辅助系统面临着一个关键挑战:如何在不增加医护人员额外操作负担的情况下,通过隐式 cues(暗示)实现自然流畅的协作。传统机器人系统需要明确的指令输入,这与医疗环境中注重无菌操作和专注度的要求存在矛盾。特别是在手术室场景中,无菌护士需要根据手术进程和医生的肢体语言来预判器械需求,这种基于经验的直觉性协作对机器人系统提出了极高要求。
为解决这一难题,研究团队创新性地将人类动作识别(HAR)技术引入医疗环境。该方法的核心思想是通过分析医护人员的骨骼动作序列,自动识别其正在执行的操作类型,从而为机器人系统提供决策依据。具体而言,研究聚焦于医疗交接场景中的关键动作阶段,借鉴Strabala等人提出的交接过程模型,将交接行为分解为接近、伸手、传递和收回等六个基本阶段。
研究方法主要包含三个关键技术环节:首先利用MMpose工具箱进行人体姿态估计,提取COCO格式的骨骼关键点;接着将骨骼信息处理为关节、骨骼和运动三个特征流;最后应用三种先进的图卷积网络算法进行动作分类。特别值得关注的是,研究团队建立了两个专属数据集:包含14台真实手术记录的OR数据集(344,000帧)和20个伤口包扎场景的Ward数据集(31,328帧),这些数据均经过医学专家的精细标注。
在技术方法层面,研究团队对比了四种姿态估计算法(Swin Transformer、RTMpose3D、YOLO-Pose和SimCC)在医疗场景下的适应性,最终选择RTMpose3D处理病房数据、Swin Transformer处理手术室数据。针对动作识别任务,团队系统评估了ST-GCN(时空图卷积网络)、CTR-GNC(通道拓扑优化图卷积网络)和SkateFormer(骨骼时序变换器)三种算法的性能,并采用加权多特征流融合策略优化模型输入。
姿态估计结果分析
研究数据显示,在病房场景中,RTMpose3D表现出色,其PDJ@0.1(关节检测百分比)达到0.6031,OKS(物体关键点相似度)为0.9126。而在更具挑战性的手术室场景中,由于光线条件复杂和手术衣遮挡等因素,所有算法的性能均有所下降,最佳表现者Swin Transformer的PDJ@0.1为0.4784,AP(平均精度)仅为0.101。这种差异突显了医疗环境特殊性对计算机视觉算法提出的独特挑战。
病房场景动作识别
SkateFormer算法在该场景表现最优,加权平均F1值达到0.941±0.009,显著优于ST-GCN(0.933±0.014)和CTR-GCN(0.933±0.011)。然而分析发现,交接过程中的"接近"和"伸手"动作仍存在识别困难,其F1值分别仅为0.522±0.098和0.575±0.038。混淆矩阵显示,这些过渡性动作容易相互混淆,可能与参与者执行动作时的犹豫有关。
手术室场景动作识别
ST-GCN算法以0.736±0.045的加权平均F1值领先,但其宏加权F1值仅为0.470±0.089,表明模型对少数类别的识别能力仍有待提升。研究发现,手术室中的交接动作幅度较小,且与主要动作类别(如操作)之间存在明显重叠,这增加了分类难度。特别是"交接"动作的识别F1值仅为0.280±0.053, anticipation(预判)性能进一步降至0.221±0.052。
动作预判性能
研究团队还评估了算法在0.5-2秒时间区间内的动作预判能力。结果显示,随着预判时间延长,性能均呈现下降趋势。在病房场景中,SkateFormer在1秒预判间隔仍保持0.923±0.011的F1值,表现最为稳健。这表明基于骨骼动作的预判在医疗场景中具有可行性,但需要对少数类别进行重点优化。
研究的讨论部分深入剖析了当前方法的局限性与应用前景。尽管使用了模拟场景数据且动作定义可能过于简化,但团队通过在MM-OR数据集上的跨域验证(F1值0.658)证明了框架的泛化能力。值得注意的是,医疗场景的特殊性要求算法必须应对细微动作识别、遮挡处理等挑战,这为未来研究指明了方向。
该研究的核心价值在于为医疗机器人协作提供了全新的技术路径。通过将人类动作识别技术应用于手术室和病房场景,研究证实了基于骨架信息的行为理解在复杂医疗环境中的可行性。尽管在实时性、准确性和泛化能力方面仍需优化,但这项工作为实现"预见性人机协作"奠定了重要基础,标志着医疗机器人从被动响应向主动协作的重要转变。随着技术的不断完善,这种基于隐式 cues的交互方式有望显著提升医疗工作效率,减轻医护人员负担,最终推动智能医疗环境的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号