面向手术机器人无标记实时跟踪的立体可微渲染（stereo-differentiable rendering）流程精简化

《International Journal of Computer Assisted Radiology and Surgery》：Streamlining stereo-differentiable rendering for marker-free real-time tracking of surgical robots

【字体：大中小】 时间：2026年06月11日 来源：International Journal of Computer Assisted Radiology and Surgery 2.3

编辑推荐：

　　研究人员评估了基于立体可微渲染（stereo-differentiable rendering）的位姿估计方法用于手术机器人无标记实时跟踪的效果，旨在缓解杂乱手术环境中易遮挡的基于标记（marker-based）跟踪问题，从而提升安全性、减少设置时间并实现智能

研究人员评估了基于立体可微渲染（stereo-differentiable rendering）的位姿估计方法用于手术机器人无标记实时跟踪的效果，旨在缓解杂乱手术环境中易遮挡的基于标记（marker-based）跟踪问题，从而提升安全性、减少设置时间并实现智能多机器人交互。方法中，研究人员将原基于可微渲染的无标记机器人位姿估计框架roboreg扩展用于在线实时动态跟踪，具体从两方面改进：(i) 序列优化（sequential optimisation）在连续帧间传播位姿估计，并结合运动自适应超参数调节以在估计过程中平衡收敛性与精度；(ii) 对分割与优化步骤集成CUDA流（CUDA stream）并行化，并与CUDA图（CUDA graph）加速的分割相结合。研究人员采集了38组无遮挡机器人位移视频序列数据集，以及5组遮挡机器人数据集（含静态起止真实位姿标定和中间的动态基于标记的参考跟踪）用于不同场景下的精度评估。结果表明，对于1080p视频序列实现了30 fps实时定位，较原始roboreg的14 fps提升至匹配相机帧率；演示了近1 cm精度：相对于静态真实位姿标定的平移误差1.7 cm、旋转误差0.6°，相对于基于标记的参考标准在27460帧上的平均3D误差1.2 cm（遮挡评估1242帧以上为1.53 cm）；该方法在动态估计上优于FoundationPose达11%（遮挡数据集达63%），静态估计优250%，同时推理速度快6倍。结论为：研究人员通过立体可微渲染实现了手术机器人实时高分辨率无标记跟踪，定位精度与基于标记的方法相当，并超越了基础模型基线。

论文发表于《International Journal of Computer Assisted Radiology and Surgery》。研究背景方面，模块化手术机器人各组件可独立定位，能灵活部署于空间受限的手术间，但当前机器人空间感知能力不足，臂间、设备间及与人员间的碰撞会中断工作流程，限制其实际应用。连续相机到机器人位姿估计需提取6D空间信息（3D平移加旋转），传统对应点方法多依赖物理标记（fiducial markers，如AprilTag），需改造机器人结构、手工配置且易遮挡脱落；基于关键点（keypoint）的深度学习方法虽高效，但对遮挡、运动模糊和环境变化敏感；基于渲染的方法利用完整机器人几何进行密集对应匹配，精度和鲁稳定性更优，但多聚焦离线估计，尚无在线连续位姿跟踪的实证。可微渲染（differentiable rendering，DR）可通过梯度优化将CAD模型投影与观测分割掩膜对齐来求相机外参，roboreg框架已将其扩展至立体设置以提升距离估计精度，并在无菌布（sterile drape）遮挡下有效，但其迭代优化计算量大，无法满足在线实时需求。因此研究人员开展本研究，旨在对roboreg进行流式并行与自适应优化改造，实现手术机器人无标记、实时、鲁棒的6D位姿在线跟踪。

主要关键技术方法包括：基于roboreg立体可微渲染框架，连续帧间采用序列优化初始化的位姿传播；引入CUDA多流（multi-stream）并行与CUDA图加速分割，以ping-pong双流模式重叠分割与优化操作；目标函数改用Tversky loss替代soft Dice以提升对分割误检的鲁棒性，并省略欧氏距离变换（EDT）以适配良好初始重叠假设；提出运动感知自适应优化，依据帧间软IoU、ROI内质心位移（归一化）、概率矩角差分类为稳定、旋转、平移三种运动态并动态调整AdamW的学习率与动量；分割模型采用roboseg-v0-large，推理用CUDA graph录制回放降开销；初始位姿由Hydra（基于RGB-D的点云配准方法）给出再经立体可微渲染细化；数据集来源于KUKA LBR Med 7机器人搭配Stereolabs ZED 2i立体相机采集的19组位移序列（9组机器人位移、10组相机位移，正反各一次共38组无遮挡序列；另5组遮挡序列含轻度与重度遮挡，由操作者部分遮挡机器人），以末端AprilTag通过立体PnP（Perspective-n-Point）解算的位姿作为动态参考真值，静态起止位姿由多姿态Hydra加roboreg精细化作为静态真值；实验平台为Ubuntu 24.04、AMD Ryzen 9 5900X、NVIDIA RTX 5090，对比基线为FoundationPose（RGB-D，同分割输入，FoundationStereo深度）。

结果部分保留小标题简述如下：

Real-time robot pose tracking：研究人员构建多流流水线，分割与立体可微渲染优化在两CUDA流间ping-pong并发，理论单帧耗时降为max(t_seg, t_opt)，实践中达到34.0 fps（1080p），较顺序17.2 fps提速1.97倍，超过ZED 2i的30 fps上限；组件分析显示分割延迟33.3 ms，优化速率259.9 iter/s，较原始roboreg（每帧网格更新）近翻倍，较同数据集下采样的FoundationPose快6倍，亦远快于EasyHeC（约30 s/pose）和CtRNet（1 Hz）。

Camera pose initialisation：采用Hydra由RGB-D初估相机到机器人外参再经立体可微渲染细化，动态跟踪时前一帧收敛位姿作为当前帧优化初值；静态起止位姿由多姿态Hydra加roboreg精细化作为真值。

Objective function：去掉EDT，直接使用左右视图渲染轮廓与分割的概率掩膜以Tversky loss构成目标（f = f_l+ f_r），其中α、β分别惩罚假阳性与假阴性，提升对分割误差的鲁棒性。

Concurrent optimisation：详细说明双流（stream_current、stream_next）ping-pong调度，事件同步保证N+1帧优化在N+1分割与N优化均完成后再启动，避免竞态；单帧时间由t_seg+t_opt降至max(t_seg, t_opt)，最大化GPU利用率。

Motion-aware adaptive optimisation：在ROI（由前帧渲染掩膜膨胀5像素定义）内计算软IoU、归一化质心位移、概率矩角差，分三态调AdamW超参：稳定（IoU≥0.995）用lr=5×10^-4，(β₁,β₂)=(0.95,0.999)；旋转（低IoU且角差>0.1°）用lr=2.75×10^-2，(0.9,0.95)；平移（低IoU且质心位移>0.001 m）用lr=2.75×10^-2，(0.9,0.98)；共用权重衰减1×10^-4，最大迭代N_iter=5（消融用10），梯度裁剪0.1。

Inference efficiency analysis：系统1080p下达34.0 fps，并行较顺序17.2 fps提速1.97倍；分割33.3 ms，优化259.9 iter/s；较原始roboreg（每帧网格更新）近翻倍，较FoundationPose（同数据集下采样）快6倍；优于EasyHeC（~30 s/pose）和CtRNet（1 Hz）。

Pose estimation evaluation against static calibrations：在32条轨迹（16序列正反）上，本文方法静态端点误差平移1.76±0.70 cm（正向1.84±0.68 cm，反向1.68±0.70 cm），旋转0.61°；FoundationPose整体57.76±112.32 cm（3条失效因深度图将机器人基座误分类为环境结构），剔除失效后为4.37±1.49 cm，精度仅为本文方法的2.5倍差。

Motion pose estimation against marker-based approach：在27460帧上，本文平均3D误差1.24 cm（正向1.22 cm，反向1.26 cm），54.7%帧<1 cm，组件MAE：X、Y0.34 cm，Z0.92 cm，偏置小（X:-0.40 cm，Y:+0.05 cm，Z:-0.04 cm）；FoundationPose整体27.40 cm，剔除异常后1.38 cm（仍高11%），Y轴误差高44%（0.49 vs 0.34 cm），Z高15%（1.06 vs 0.92 cm），偏置显著（X:+0.40 cm，Y:-0.58 cm，Z:+0.99 cm），仅35.1%帧<1 cm；本文在快速运动过渡时有误差尖峰（最大14.46 cm，1.7%帧>5 cm），但多数为<1 cm高精度。

Ablation study：全分辨率（1080p）较分割匹配下采样（1024×576上采样）静态精度提15%（1.76 vs 2.07 cm），旋转提16.9%（0.61° vs 0.69°），动态误差降9.5%（1.24 vs 1.37 cm），<1 cm帧增16.9%，代价约2 fps；自适应超参较固定（lr=5×10^-3）静态提4.3%（1.76 vs 1.84 cm），动态相当（1.24 vs 1.25 cm），但固定下最大误差高68.3%、方差高23.2%；固定激进（lr=2.75×10^-2）动态误差升至2.06 cm（升66.1%），<1 cm帧减78.6%；N_iter=10提精度但降至22 fps不达标，自适应5 iter为最优折中。

Occlusion study：轻度遮挡（序列0_1、2_3）本文均值1.78 cm、1.35 cm，<1 cm帧48.41%、40.23%，>5 cm仅5.25%、0.81%；FoundationPose由无遮挡1.38 cm恶化至4.18 cm、4.15 cm，<1 cm近0，>5 cm达9.39%、10.75%；重度遮挡（序列1_2、3_4、4_5）本文均值7.52 cm、5.22 cm、3.59 cm，分布展宽（最大64.92、45.80、13.44 cm），但仍各有12.25%、30.61%、23.30%帧<1 cm，>5 cm为37.64%、33.11%、28.94%；FoundationPose均值5.89 cm、5.25 cm、5.06 cm，最大较低（35.55、22.98、7.39 cm），但<1 cm帧0~0.42%，>5 cm达36.30%、51.54%、55.31%；基线在X轴偏置比82%，Y、Z为100%。

讨论部分总结：本研究首次演示立体可微渲染用于动态位姿估计场景，在1080p下达超过30 fps的在线推理速率（实测34.0 fps），同时满足无遮挡近1 cm、轻度遮挡约1.5 cm精度；CUDA流并行使迭代速率较原roboreg翻倍，用AdamW加运动自适应超参平衡精度与效率；相比基于关键点方法，本方法通过密集对应白-box（白盒）结构可解释性强；较FoundationPose不需深度（无菌布下深度常不可用），内存占用小、快6倍，且平台无关只需CAD网格；局限包括：轮廓可微渲染依赖分割质量，严重遮挡下次优（重度遮挡动态均值升至约4.31 cm）；仍需初始相机位姿（由Hydra提供）；自适应优化在持续高速运动与大幅旋转下调节效果下降；数据现为10 Hz采集以30 Hz处理致时间分辨率降，未来需用原生30 Hz采集；当前机器人关节固定未考虑运动中关节角变化；仅单KUKA LBR Med 7实验室环境，需拓展其他平台（如CMR Versius、xArm7）及更接近真实手术室数据；原roboreg支持多机器人但未在此验证；动态布帘（drape）场景未实验；未来方向含多机器人部署、关节运动耦合、更鲁棒重度遮挡处理、临床环境数据验证等。

结论部分翻译：研究人员通过立体可微渲染演示了手术机器人实时高分辨率无标记跟踪，定位精度与基于标记的方法相当，并超越了基础模型基线。

热点排行