编辑推荐:
在开放肝脏手术中,现有分割与追踪技术需用户交互且依赖设备。为此,研究人员开展 AR 引导下多模态自动分割与追踪研究,整合 ESANet、SAM、DeAOT 模型,结合场景感知重提示算法。结果显示该方法平衡精度与速度,为 AR 引导手术提供新方案。
在现代肝脏外科领域,精准可视化与实时追踪始终是开放肝脏手术(Open Liver Surgery)面临的核心挑战。传统术中超声仅能提供二维图像,难以应对肝脏非刚性形变,导致手术时间延长和肿瘤残留风险升高。尽管增强现实(Augmented Reality, AR)技术有望通过三维可视化改善这一现状,但其在肝脏手术中的应用受制于实时追踪难题 —— 肝脏的动态形变使传统标记点追踪失效,而现有深度学习模型或依赖大量标注数据(如 ESANet),或需人工提示(如 SAM、DeAOT),难以满足临床全自动、实时性的需求。
为突破上述瓶颈,德国兰茨胡特应用科学大学(University of Applied Sciences Landshut)与弗莱堡大学(University of Freiburg)等机构的研究团队,针对 AR 引导开放肝脏手术的实时分割与追踪问题展开研究。他们开发了一种融合多模型与场景感知重提示策略的自动化框架,并在 10 例临床手术的 RGBD 视频中验证其性能。研究成果发表于《International Journal of Computer Assisted Radiology and Surgery》,为无标记 AR 引导手术提供了关键技术突破。
关键技术方法
研究构建了包含三个核心模块的自动提示流水线:
提示生成 :使用 ESANet(高效场景分析网络)处理 HoloLens2 采集的 RGBD 数据,通过微调与数据增强生成初始分割掩码,并基于像素概率筛选候选提示点,间距公式为s = f N (f = 0.1 )。
语义分割 :将提示点与 RGB 图像输入 SAM(Segment Anything Model),利用其零样本分割能力生成精细肝脏掩码,采用 ViTH 变体(632M 参数)确保精度。
目标追踪 :通过 DeAOT(解耦特征层次传播模型)基于首帧掩码追踪后续帧,使用 SwinB-DeAOTL 变体处理动态场景。 此外,引入累积和(CUSUM)算法 实现场景感知重提示,通过监测分割区域大小、深度变化及相机位姿,动态触发 SAM 重新提示,平衡精度与帧率(FPS)。
研究结果
1. 单模型性能对比
SAM :在理想提示下实现最高中位 IoU(85%),但推理时间达 428.4ms / 帧,需人工干预。
DeAOT :使用首帧真值掩码时 IoU 为 75%,帧率 11.9FPS,依赖参考帧初始化。
ESANet :无需交互,帧率 14.4FPS,但 IoU 仅 63%,受数据稀缺影响显著。
2. 多模型流水线性能
无重提示 :中位 IoU 71%,帧率 13.2FPS,超越 ESANet 的精度与 SAM 的速度。
间隔重提示 :随间隔缩短(R 50 至R 1 ),IoU 提升至 78%,但帧率降至 1.82FPS,受限于 SAM 耗时。
场景感知重提示 :最优策略(预测尺寸触发,α = 4 )实现 IoU 74.7%、帧率 11.5FPS,接近 DeAOT 理想性能,且在 7/10 患者中显著优于无重提示(p < 0.05 )。
3. 临床适用性分析
数据覆盖 10 例患者的 20 段手术视频,包含遮挡、相机移动等复杂场景,验证了方法在真实环境中的鲁棒性。
肝脏可见性高的患者(如 Patient 3、6)无需重提示即可保持高精度,而遮挡严重者(如 Patient 1)通过场景感知重提示显著提升性能。
结论与讨论
该研究首次将 ESANet、SAM、DeAOT 整合为全自动流水线,通过场景感知重提示动态平衡分割精度(IoU 最高 75.8%)与实时性(最高 12.5FPS),突破了传统方法对人工干预的依赖。核心创新点包括:
多模型互补 :ESANet 解决数据稀缺,SAM 提供零样本精度,DeAOT 实现高效追踪,三者协同应对手术动态性。
自适应重提示 :CUSUM 算法基于手术场景参数(如肝脏尺寸变化)智能触发提示,避免冗余计算,较固定间隔策略更高效。
尽管研究未使用公开数据集,但其临床数据验证(6000+ RGBD 帧)与硬件兼容性(HoloLens2)彰显了转化潜力。未来可通过迁移学习(如腹腔镜数据)进一步优化 SAM,并探索更高帧率传感器(如 Articulated Hand Tracking 模式)以提升实时性。该框架为 AR 引导软组织手术提供了通用范式,有望减少术中超声依赖,缩短手术时间,降低肿瘤残留风险,推动精准外科的发展。