基于场景感知自提示的 AR 引导开放性肝脏手术多模态自动分割与追踪研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月15日 来源：International Journal of Computer Assisted Radiology and Surgery 2.3

编辑推荐：

　　在开放肝脏手术中，现有分割与追踪技术需用户交互且依赖设备。为此，研究人员开展 AR 引导下多模态自动分割与追踪研究，整合 ESANet、SAM、DeAOT 模型，结合场景感知重提示算法。结果显示该方法平衡精度与速度，为 AR 引导手术提供新方案。

在现代肝脏外科领域，精准可视化与实时追踪始终是开放肝脏手术（Open Liver Surgery）面临的核心挑战。传统术中超声仅能提供二维图像，难以应对肝脏非刚性形变，导致手术时间延长和肿瘤残留风险升高。尽管增强现实（Augmented Reality, AR）技术有望通过三维可视化改善这一现状，但其在肝脏手术中的应用受制于实时追踪难题 —— 肝脏的动态形变使传统标记点追踪失效，而现有深度学习模型或依赖大量标注数据（如 ESANet），或需人工提示（如 SAM、DeAOT），难以满足临床全自动、实时性的需求。

为突破上述瓶颈，德国兰茨胡特应用科学大学（University of Applied Sciences Landshut）与弗莱堡大学（University of Freiburg）等机构的研究团队，针对 AR 引导开放肝脏手术的实时分割与追踪问题展开研究。他们开发了一种融合多模型与场景感知重提示策略的自动化框架，并在 10 例临床手术的 RGBD 视频中验证其性能。研究成果发表于《International Journal of Computer Assisted Radiology and Surgery》，为无标记 AR 引导手术提供了关键技术突破。

关键技术方法

研究构建了包含三个核心模块的自动提示流水线：

提示生成：使用 ESANet（高效场景分析网络）处理 HoloLens2 采集的 RGBD 数据，通过微调与数据增强生成初始分割掩码，并基于像素概率筛选候选提示点，间距公式为s=fN（f=0.1）。
语义分割：将提示点与 RGB 图像输入 SAM（Segment Anything Model），利用其零样本分割能力生成精细肝脏掩码，采用 ViTH 变体（632M 参数）确保精度。
目标追踪：通过 DeAOT（解耦特征层次传播模型）基于首帧掩码追踪后续帧，使用 SwinB-DeAOTL 变体处理动态场景。
此外，引入累积和（CUSUM）算法实现场景感知重提示，通过监测分割区域大小、深度变化及相机位姿，动态触发 SAM 重新提示，平衡精度与帧率（FPS）。

研究结果

1. 单模型性能对比

SAM：在理想提示下实现最高中位 IoU（85%），但推理时间达 428.4ms / 帧，需人工干预。
DeAOT：使用首帧真值掩码时 IoU 为 75%，帧率 11.9FPS，依赖参考帧初始化。
ESANet：无需交互，帧率 14.4FPS，但 IoU 仅 63%，受数据稀缺影响显著。

2. 多模型流水线性能

无重提示：中位 IoU 71%，帧率 13.2FPS，超越 ESANet 的精度与 SAM 的速度。
间隔重提示：随间隔缩短（R50至R1），IoU 提升至 78%，但帧率降至 1.82FPS，受限于 SAM 耗时。
场景感知重提示：最优策略（预测尺寸触发，α=4）实现 IoU 74.7%、帧率 11.5FPS，接近 DeAOT 理想性能，且在 7/10 患者中显著优于无重提示（p<0.05）。

3. 临床适用性分析

数据覆盖 10 例患者的 20 段手术视频，包含遮挡、相机移动等复杂场景，验证了方法在真实环境中的鲁棒性。
肝脏可见性高的患者（如 Patient 3、6）无需重提示即可保持高精度，而遮挡严重者（如 Patient 1）通过场景感知重提示显著提升性能。

结论与讨论

该研究首次将 ESANet、SAM、DeAOT 整合为全自动流水线，通过场景感知重提示动态平衡分割精度（IoU 最高 75.8%）与实时性（最高 12.5FPS），突破了传统方法对人工干预的依赖。核心创新点包括：

多模型互补：ESANet 解决数据稀缺，SAM 提供零样本精度，DeAOT 实现高效追踪，三者协同应对手术动态性。
自适应重提示：CUSUM 算法基于手术场景参数（如肝脏尺寸变化）智能触发提示，避免冗余计算，较固定间隔策略更高效。

尽管研究未使用公开数据集，但其临床数据验证（6000+ RGBD 帧）与硬件兼容性（HoloLens2）彰显了转化潜力。未来可通过迁移学习（如腹腔镜数据）进一步优化 SAM，并探索更高帧率传感器（如 Articulated Hand Tracking 模式）以提升实时性。该框架为 AR 引导软组织手术提供了通用范式，有望减少术中超声依赖，缩短手术时间，降低肿瘤残留风险，推动精准外科的发展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号