综述：Nail It!：一种面向dVRK的自主手术缝合与遥操作学习框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Journal of Computer Assisted Radiology and Surgery》：Nail It! A learning framework for autonomous surgical suturing and teleoperation on the dVRK

【字体：大中小】 时间：2026年07月03日 来源：International Journal of Computer Assisted Radiology and Surgery 2.8

编辑推荐：

　　摘要目的：可靠的外科缝合自动化需要精确而灵活的仿真工具，以学习符合临床实践的机器人自主技能。然而，即使是da Vinci手术机器人研究套件（dVRK）这类主流平台，高保真、开箱即用的学习框架仍十分稀缺。研究人员发布了Nail It!，一个完整的Unity–R

摘要目的：可靠的外科缝合自动化需要精确而灵活的仿真工具，以学习符合临床实践的机器人自主技能。然而，即使是da Vinci手术机器人研究套件（dVRK）这类主流平台，高保真、开箱即用的学习框架仍十分稀缺。研究人员发布了Nail It!，一个完整的Unity–ROS–dVRK学习框架，支持遥操作数据采集以及面向持针、定位等外科操作基元的强化学习（RL）训练。

方法：Nail It!具有以下特点：（i）基于物理的Unity环境，对dVRK进行了完整而精确的运动学建模；（ii）与dVRK主控台实现实时的机器人操作系统（ROS）通信，以支持外科医生对患者操作臂（PSM）进行主动控制；（iii）集成图形用户界面（GUI），用于环境参数调节、奖励函数设计、学习算法开发以及仿真到现实（sim-to-real）验证。该框架还提供RL策略训练的全面支持，例如采用课程学习（CL）和域随机化（DR）的近端策略优化（PPO），以鲁棒地训练缝合步骤策略，并支持多智能体强化学习（MARL）以实现多臂协同。

结果：研究人员使用Nail It!在dVRK上开展了自主缝合学习实验，采用带课程学习（CL）的PPO处理多步骤外科流程，并利用域随机化（DR）技术缓解仿真到现实（sim-to-real）差距以实现策略部署。Nail It!所生成的策略可在仿真中以95%的准确率完成缝合任务，并对最大达15 mm（目标位）的视觉和位置扰动表现出经证实的鲁棒性。

结论：Nail It!为开发与基准评测自主外科技能提供了一个模块化、高保真的平台。通过集成精确的运动学、强化学习与遥操作，它既支持自主训练，也支持真实外科场景下的人机回环（human-in-the-loop）控制。直接的ROS连接和集成的GUI进一步促进了快速开发与仿真到现实（sim-to-real）实验。本工作的补充材料见https://luigimuratore.github.io/Nail-it/。

State of the art and open challenges

机器人辅助手术相较于传统腹腔镜手术，在灵巧性、精度和人体工程学方面具有显著优势，显著推动了微创外科手术的发展。在众多外科子任务中，缝合仍是最基础且最具挑战性的操作之一，它要求精确的持针控制、双手协调以及长时间稳定执行。由于缝合具有重复性和耗时性的特点，它成为机器人辅助手术中自动化研究的重要候选任务，有望降低外科医生工作负荷、标准化治疗效果并提高手术效率。

尽管受到持续关注，自主外科缝合仍然是一个开放问题。早期研究主要依赖经典控制与运动规划技术，通常基于预定义轨迹或简化任务假设。近期研究则探索了基于学习的方法，包括模仿学习（IL）和强化学习（RL），以应对外科操作中固有的可变性和复杂性。这些方法在持针、定位及简单插入等子任务中取得了一定进展。然而，完全自主的缝合需要协调的多步骤操作、精确的工具操控以及对几何和视觉变化的鲁棒性。对于da Vinci手术机器人研究套件（dVRK）等平台而言，精确建模机器人运动学和关节约束对于将学习得到的行为迁移至真实硬件至关重要，但相关建模工作仍然不足。因此，现有方法往往局限于简化任务、单机械臂或高度约束的环境，难以适用于真实外科场景。

Unified framework

精确可靠的仿真环境对自主外科系统的开发至关重要，能够在真实机器人部署前实现安全策略学习、大规模数据生成和系统基准测试。针对dVRK平台，已有若干仿真框架被提出，用于支持外科机器人与学习控制研究。然而，现有的仿真器虽具备刚体动力学、简化软组织交互或特定任务场景等功能，在自主缝合语境下仍存在明显局限。多数框架采用近似或不完整的dVRK运动学模型，未充分考虑关节层面行为和被动机构，而这些因素对精确持针操作至关重要。这种建模缺陷不仅降低了仿真运动在物理上的一致性，也显著增加了策略迁移到真实硬件时的仿真到现实（sim-to-real）差距。此外，许多仿真器缺乏与基于ROS的控制架构以及真实dVRK主控台的紧密集成，难以为自主执行、遥操作以及人机回环数据采集之间提供无缝切换。RL训练流程因此常以临时或任务专用方式实现，缺乏对课程学习（CL）、域随机化（DR）或系统奖励函数设计等高级学习范式的支持，而这些范式对于缝合这类复杂操作任务的稳定训练至关重要。缝合本质上是一项双手协同任务，但现有仿真平台却很少支持多智能体强化学习（MARL）范式以实现多患者操作臂（PSM）的协调训练。

为弥合上述差距，研究人员发布了Nail It!：一个专为dVRK设计的Unity–ROS仿真框架，用于基于学习的自主外科缝合。该框架结合精确的运动学重建、实时ROS连接以及集成的图形用户界面（GUI），并提供RL学习基础设施，可支持PPO、SAC等多种算法，同时可结合课程学习（CL）和域随机化（DR）等策略以提高策略鲁棒性，从而支持自主持针与缝合相关任务的可靠训练、评估和仿真到现实（sim-to-real）验证。

Materials and methods

System architecture and simulation environment

该框架将Unity实时三维引擎与ROS集成，实现dVRK仿真、遥操作和自主控制的同步运行。整体架构采用模块化设计，将仿真层、中间件层与学习层分离，同时保持紧密的实时耦合。在仿真层，Unity负责运动学建模、物理仿真和手术场景的视觉渲染；环境仿真器械与任务对象之间的真实交互，并保持确定性的物理过程以确保实验可重复。中间件层确保Unity与dVRK软件栈之间的双向通信，实时交换关节状态、末端执行器位姿和控制命令。学习层负责管理RL智能体、数据记录和策略评估，并通过ROS访问仿真和遥操作数据流，支持仿真中的自主训练以及遥操作过程中关节级和末端执行器轨迹的采集。

完整手术场景以1:1比例复现了标准dVRK工作空间和空间约束，包括两个患者操作臂（PSM1、PSM2）、内窥镜、被动支撑机构、手术台和腹腔镜等。场景中集成了组织模型及其辅助道具，以匹配手术车空间布局、运动学约束和可视条件，为遥操作和强化学习提供逼真且模块化的环境。

Kinematic modelling and ROS integration

研究人员在Unity中实现了dVRK PSM的完整运动学重建，包括主动和被动运动学部件。建模基于完整的Denavit–Hartenberg（DH）参数表达，定义了连杆坐标系、关节轴和几何偏移，并据此在Unity中重建虚拟机械臂，保持各连杆的空间关系。此外，引入被动关节和校准后的耦合系数，以复现真实dVRK机构的物理依赖关系和机械约束，从而在没有直接驱动的情况下实现逼真的器械运动。通过逐步启用补偿约束进行代表性关节空间运动验证，确认了被动关节和耦合项能够恢复真实的关节协调关系和末端执行器轨迹。这种运动学精度对于基于学习的控制至关重要，因为微小的建模误差可能破坏策略稳定性或阻碍仿真到现实（sim-to-real）迁移。

通信脚本基于开源框架扩展而来，以支持dVRK特有的关节结构、消息类型和更新频率。Unity订阅来自主控台的输入话题，并将仿真PSM状态发布回ROS，形成具有视觉反馈的实时遥操作闭环。该接口还支持同步数据记录，使得遥操作中采集到的人类示教可以直接用于模仿学习（IL）或混合训练流程。

Reinforcement learning framework and task design

强化学习采用近端策略优化（PPO）实现，因其在连续控制任务中具有稳定性，同时也在相同任务和观测设置下评估了柔性驱动–评论家算法（SAC）作为对比。学习通过Unity ML–Agents接口实现。观测信息包括关节状态、工具尖端相对于目标的位姿以及二进制接触信息（共20维特征），每个PSM的动作空间为7维连续关节控制。超参数通过经验调优确定，所有实验重复3个随机种子。课程学习（CL）用于逐步增加任务难度，域随机化（DR）则通过在训练中改变物体几何和空间参数来增强策略鲁棒性。

该研究定义了四项任务以评估单智能体和多智能体控制场景：持针接近任务要求机械臂从随机初始位形移动到持针位置；针位放置任务要求将针稳定定位并放置于目标平面；完整操作任务是将接近、夹持和放置按顺序组合而成的多步骤任务；多智能体任务则由两个PSM协调完成持针传递等合作操作。

在持针接近任务中，奖励与末端执行器到针之间距离的减少成正比，在接近区域内提供更大激励，并在进入夹持区域时给予终止成功奖励。针位放置任务结合了高度塑造项和横向居中项，鼓励与目标平面对齐，并对稳定接触给予奖励、对失去接触进行惩罚。完整操作任务将上述任务顺序整合，在成功夹持时给予一次性奖励，并在正确放置时给予终止奖励，同时惩罚掉针行为。所有任务均包含时间惩罚和速度惩罚，以促进平滑高效的运动。

这些任务被有意设计为操作基元而非完整缝合流程，反映了以外科自主性分阶段实现的研究思路。为扩展单臂自主性，研究引入MARL架构以协调PSM1和PSM2，采用集中训练分散执行（CTDE）范式，在分散执行策略的同时利用共享环境信息进行集中训练。在多智能体任务中，PSM1负责持针接近、夹持和输送任务，随后由确定性控制器执行脚本化的插入弧线以模拟组织穿刺，之后控制转移到PSM2，由其学习接近、对齐并重新夹持露出的针尖。插入运动被有意脚本化，以将组织交互与协调学习解耦，使智能体当前可专注于感知、夹持和传递策略。研究还开发了集成GUI，用于场景选择、任务参数配置、学习超参数调整、课程学习和域随机化启用，以及实时监视关节状态、奖励和策略收敛。

Results

Single-agent task performance

所有单智能体任务均使用PPO成功学习。PPO在所有随机种子上均可靠收敛，最终策略在评估回合中的任务成功率超过90%。相比之下，SAC在所有评估场景中均未完成任务，表现出高方差和振荡的学习曲线，在相同训练时长内从未达到有意义的奖励水平。这一行为与离策略方法在长程操作、稀疏终止奖励和严格几何容差任务中的已知局限性一致。

引入课程学习（CL）后训练对所有种子均稳定收敛；而无课程学习的训练则经常出现不稳定或无法收敛的情况。域随机化（DR）使策略在未见过物体位姿、平面几何和夹持条件变化时仍保持高性能。定量来看，尽管注入了显著变异性，学习策略的平均居中误差约为3.0 mm，即使目标平面位置随机化达到15 mm、针位姿随机化达到5 mm时亦是如此。单任务可在100–150个仿真步内完成（以60 Hz计算约为1.7–2.5 s），完整操作任务因顺序结构需要更多步骤，但仍能实现端到端的一致执行。

Multi-agent task performance

多智能体实验评估了PSM1与PSM2之间的协调操作。PSM1能够可靠地完成持针接近、夹持和插入前定位，脚本化的插入弧线提供了稳定的阶段过渡。然而，PSM2在插入后未能可靠地重新夹持针尖。虽然策略偶尔将末端执行器移动到正确空间区域，但插入阶段引入的微小位姿偏差，以及智能体之间共享观测空间中的歧义，导致针的构型在训练中未被稳定表示，从而无法精确定位和稳定夹持。这并非Nail It!框架本身的局限，而是揭示了协调外科操作对智能体间状态估计、观测设计和策略耦合的高度敏感性，为未来通过改进跨智能体感知、共享隐表示、显式通信机制或分层协调策略提供了方向。

Discussion

结果表明，Nail It!能够在真实运动学和空间约束下为学习自主外科操作技能提供稳定有效的环境。PPO的可靠收敛证实了其适用于dVRK这类高维度、紧耦合系统。SAC的不稳定行为则凸显了外科操作任务对算法选择的敏感性，其中平滑收敛、低方差和可预测行为对于安全性与可重复性至关重要。

将任务分解为操作基元是自主缝合研究的一项重要策略。虽然当前任务尚未构成完整缝合流程，但持针接近、夹持、定向和放置等基元为更高层次行为（如组织交互、收紧缝线和打结）奠定了基础。围绕经过验证的基元构建自主性，可实现模块化的开发范式，使复杂外科行为由稳健的低层技能逐步组合而成。

课程学习（CL）被证明是实现精确操作的决定性因素。直接面对完整任务复杂度时，智能体常常难以发现稳定策略，尤其在夹持和放置阶段。逐步增加难度使智能体先获得粗略定位能力，再将其细化为精确的目标导向运动，这一过程与人类外科训练相似。域随机化（DR）进一步通过暴露于不同的物体位姿、工作空间几何和夹持条件增强了策略鲁棒性，缓解了仿真到现实（sim-to-real）迁移的主要障碍。快速重定向或精细调整时存在的残余抖动，则是刚体仿真器中学习控制的局限之一，未来可通过抖动感知奖励、可微平滑层或混合低层控制器加以改善。

在多智能体场景中，PSM1的可靠表现表明双手协调是该框架中充满希望的研究方向，但PSM2的失败也揭示了多阶段双手操作对上游变异性、观测设计和中间状态的显著敏感性。插入弧线中积累的微小偏差足以降低下游性能，凸显了多阶段双手操作的固有难度。

Conclusions

本研究提出了Nail It!：一个统一的Unity–ROS–dVRK仿真框架，用于通过强化学习和遥操作研究自主外科操作。该框架集成了精确运动学建模、基于学习的控制和实时交互，能够在真实约束下系统研究外科操作任务。研究展示了使用PPO结合课程学习（CL）和域随机化（DR）成功学习持针接近、放置和完整操作任务，并随着任务复杂度的增加实现稳定收敛和鲁棒性能。精确的dVRK PSM运动学模型捕捉了被动关节和耦合关系，提高了仿真到现实（sim-to-real）的一致性。对实时人机回环遥操作的支持使得示教数据采集成为可能，使该仿真器成为强化学习、模仿学习和混合学习方法的统一测试平台。集成GUI进一步支持无需代码修改即可配置任务、学习参数、课程调度和域随机化，从而加速实验迭代、监控与调试。未来工作将扩展至软组织交互、力感知控制以及真实dVRK硬件部署，以研究共享自主、双手协调和完整缝合流程。

联系信箱：

粤ICP备09063491号

热点排行