
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于隐私保护深度视频的手术室工作流自动识别:深度学习在多视角腹腔镜手术中的应用
【字体: 大 中 小 】 时间:2025年08月08日 来源:Surgical Endoscopy 2.4
编辑推荐:
本研究针对手术室(OR)效率优化需求,创新性地采用深度摄像头采集隐私保护视频,通过深度学习模型(ResNet/ASFormer等)实现腹腔镜手术四阶段(周转/麻醉/手术/收尾)的自动识别,达到99.7% mAP准确率,相位时长估计误差仅35秒。该技术为医院管理提供了标准化、客观化的OR效率分析工具,同时解决了传统RGB视频的隐私泄露问题。
随着人口老龄化和医务人员短缺问题加剧,手术室(OR)资源优化已成为医院管理的核心挑战。传统依靠人工记录手术阶段时间的方法存在可靠性差、标准不统一等问题,而现有视频分析技术又面临患者和医护人员隐私泄露的风险。在此背景下,荷兰Meander医疗中心与特温特大学的研究人员Beerend G.A. Gerats团队在《Surgical Endoscopy》发表创新研究,提出采用隐私保护的深度视频结合深度学习技术,实现手术室工作流的自动化识别。
研究团队采用三个Azure Kinect深度摄像头多角度采集21台腹腔镜手术视频(含胆囊切除术、阑尾切除术等6种术式),以1fps帧率记录四种手术阶段:周转期(Turnover)、麻醉期(Anesthesia)、手术期(Surgery)和收尾期(Wrap-up)。通过对比ResNet、Vision Transformer等空间模型与MS-TCN++、ASFormer等时空模型的表现,系统评估了单/多摄像头配置及在线/离线分析的可行性。
关键技术方法包括:1)多视角深度视频采集系统搭建;2)基于手术关键事件(患者进出、无菌铺单)的四阶段标注标准;3)七折交叉验证防止数据泄露;4)引入相位时长估计误差新指标;5)在线模型实时预测改造。所有实验在NVIDIA 1080Ti GPU上完成,视频数据量约150GB。
研究结果:
时空模型性能对比
ASFormer以99.7% mAP和35秒MAE显著优于空间模型(ResNet 89.7% mAP/10分钟MAE)。如图3所示,时空模型能有效修正单帧识别错误:

单摄像头可行性
最佳单摄像头(图4中Camera 1)达98.8% mAP,MAE 54秒,证明可替代多摄像头系统:

实时分析性能
在线模型性能下降但仍保持实用性(ASFormer在线94.3% mAP/77秒MAE),适合手术状态实时监控。
相位识别差异
手术期识别最佳(F1 99.0%),麻醉与收尾期较难区分(F1均为96.8%),但所有相位时长估计误差均<1分钟。
这项研究证实了深度视频在保护隐私前提下实现手术室工作流自动识别的可行性。其重要意义体现在:1)提供客观标准化的OR效率评估工具,可精准检测程序延迟;2)单摄像头方案降低实施复杂度;3)深度成像规避了传统视频的隐私合规风险;4)35秒的相位估计精度满足临床管理需求。未来研究可扩展至机器人手术等更多术式,并通过多中心验证提升模型泛化能力。该技术为数字化手术室建设提供了兼顾效率与隐私的创新解决方案。
生物通微信公众号
知名企业招聘