编辑推荐:
为解决基础模型在手术视频分割中难泛化、需人工提示等问题,研究人员开展 SASVi 研究,其用框架目标检测监督模型自动重提示 SAM2。结果显示提升分割时间一致性,为相关研究提供基线和标注数据。
在计算机辅助手术领域,精准的手术视频分割对术中引导与术后评估至关重要。然而,现代深度学习模型依赖大规模标注数据,而手术视频的逐像素标注极为繁琐,尤其长视频序列的标注成本极高。同时,主流的基础模型如 SAM2 虽在视频分割中展现潜力,但面临两大挑战:一是对手术场景中物体进出等视觉差异大的区域泛化能力不足,二是需人工提示,当手术阶段切换或镜头移动导致物体变化时,需频繁手动干预,限制了自动化应用。因此,如何利用少量标注数据实现手术视频的平滑、连贯分割,成为亟待解决的难题。
德国达姆施塔特工业大学(TU Darmstadt)的研究人员开展了相关研究,提出了 Segment Any Surgical Video(SASVi)方法,成功将 SAM2 应用于手术视频分割,在三个不同的胆囊切除术和白内障手术数据集上进行了定量和定性验证。该研究成果发表在《International Journal of Computer Assisted Radiology and Surgery》,为手术视频分析领域提供了新的技术范式。
研究采用的关键技术方法包括:一是构建框架目标检测监督模型(Overseer model),基于 Mask R-CNN、DETR、Mask2Former 等模型,在少量目标域标注数据上训练,用于监测视频中当前存在的实体,检测未跟踪类别进入或已跟踪实体离开的时刻;二是设计自动重提示机制,当监督模型检测到场景变化时,利用其分割结果生成新的提示锚点,对 SAM2 进行重提示,实现时间上平滑完整的分割;三是结合光学流扭曲(Optical Flow Warping)和轮廓距离(Contour Distance, CDT)等指标,评估分割的时间一致性。
实验结果
- 监督模型性能:在 CholecSeg8k、CaDISv2、Cataract1k Segm. 等小数据集上,Mask2Former 在 Class F1、Mask Dice 等指标表现最优,成为主要监督模型。例如在 CholecSeg8k 数据集,其 Class F1 达 0.958,Semantic Dice 达 0.940。
- 时间一致性评估:与 SAM2(t1)、nnUNet、Surgical-DeSAM 等方法相比,SASVi 显著提升分割的时间一致性。在 Cholec80 数据集,SASVi(Mask2Former)的 Dice OF 达 0.754,IoU OF 达 0.662,远高于 SAM2(t1)的 0.451 和 0.398,表明其能有效捕捉视频帧间的语义连贯性。
- 大规模标注生成:利用 SASVi,基于 CholecSeg8k、CaDISv2、Cataract1k Segm. 的少量标注数据,生成了 Cholec80、CATARACTS、Cataract1k 等大规模数据集的完整分割标注,并公开提供,缓解了手术领域标注数据稀缺的问题。例如,CATARACTS 数据集仅 0.95% 帧有标注,经 SASVi 处理后实现全视频标注。
研究结论与讨论
SASVi 通过框架目标检测监督模型与 SAM2 的结合,实现了基于少量标注数据的手术视频平滑、连贯分割,为该领域提供了新基线。其核心创新在于自动化重提示机制,无需人工干预即可应对手术场景变化,显著提升分割效率与准确性。此外,生成的大规模标注数据为后续研究奠定了数据基础,推动手术数据科学模型的发展。
尽管研究依赖监督模型的性能,且在数据极稀缺(如 1% 标注)时性能有所下降,但 SASVi 仍展现出强大的实用性与创新性。未来可探索更高效的小样本模型、引入模型不确定性估计以减少误差传播,进一步提升方法的鲁棒性与泛化能力。该研究不仅突破了手术视频分割的技术瓶颈,更通过数据开源促进了领域的协同发展,对计算机辅助手术的临床应用与研究具有深远意义。