SWAG:基于生成式预判的长期手术工作流预测框架

【字体: 时间:2025年06月27日 来源:International Journal of Computer Assisted Radiology and Surgery 2.3

编辑推荐:

  针对现有手术阶段识别方法缺乏前瞻性指导的局限,英国伦敦国王学院团队提出SWAG框架,创新性地将生成式模型应用于手术工作流预测。该研究通过单次解码(SP)和自回归(AR)两种方法,结合阶段转移概率嵌入技术,在Cholec80和AutoLaparo21数据集上实现长达30分钟的手术阶段预测(F1分数最高达41.3%),为术中决策支持系统提供了时序连续性预测的新范式。

  

手术智能化的未来图景:当生成式模型遇见术中决策

在充满不确定性的手术室里,外科医生如同在时间迷雾中前行的探险者。传统的手术阶段识别技术虽然能准确"看清当下",却无法"预见未来"——这种局限性使得术中突发状况常令人措手不及。现有预测方法多局限于短期单一事件(如5分钟内下一器械出现),而长达数小时的手术流程中,阶段转换的重复性、时序依赖性等特征始终缺乏有效建模。更关键的是,识别与预测任务的割裂,导致系统无法构建从当下到未来的连续时空认知。

英国伦敦国王学院Maxence Boels团队在《International Journal of Computer Assisted Radiology and Surgery》发表的突破性研究,将自然语言处理领域的生成式预判理念引入手术分析。研究者创新开发SWAG框架,其核心技术包括:(1)融合视觉Transformer(AVT)与窗口自注意力(WSA)的时空特征编码器;(2)单次解码(SP)与自回归(AR)双路径生成架构;(3)基于阶段转移概率的先验知识嵌入技术;(4)剩余时间回归到分类(R2C)的映射方法。实验采用Cholec80(胆囊切除术)和AutoLaparo21(腹腔镜子宫切除术)两个公开数据集,以1440帧历史观测预测未来60分钟工作流。

方法创新:双解码器协同作战
Window Self-Attention编码器通过20帧滑动窗口处理768维视觉特征,配合压缩池化(CP)模块将24分钟历史压缩为24个关键标记。*单次解码器(SP)*创新性地将未来每分钟的预测转化为并行生成的"时间标记",利用阶段转移概率张量Pi,j,hn·60初始化查询向量,实现单前向传播完成30帧预测。自回归解码器(AR)则采用GPT-2架构,通过因果掩码实现序列递推生成。特别设计的间隔池化技术以60秒为单位聚合时空特征,确保预测时序与真实手术进度严格对齐。

结果突破:从分钟级到小时级的跨越
阶段识别性能:SP*模型在AutoLaparo21复杂场景下展现更强适应性,当前阶段识别F1达72.7%,远超基线模型69.4%。

长期预测能力:SP在30分钟预测中实现41.3%的加权F1,SegF1(分段交并比)达34.8%,证明其预测结果具有临床可用的时序连贯性。对比实验显示,结构化较强的胆囊切除术(Cholec80)中简单概率模型Naive2即可获39.5% F1,而复杂子宫切除术需依赖SP的深度建模能力。

剩余时间预测:SP解码器在2/3分钟短时预测中wMAE低至0.32/0.48分钟,超越IIA-Net等专用回归模型。但5分钟以上预测误差显著增大,反映长期手术流程的不确定性本质。

讨论与展望
该研究首次验证生成式模型在手术长程预测中的可行性,其SP*架构通过先验知识嵌入将AutoLaparo21的预测性能提升17%。但研究也暴露关键局限:预测性能随时长呈指数衰减,20分钟后F1普遍低于30%;现有方法假设单一确定未来,而实际手术常存在分支路径。

这些发现为智能手术系统发展指明方向:未来需开发不确定性量化模块,区分"可预测"与"不可预测"的术中事件;临床部署应考虑生成多模态预测轨迹,辅助医生进行风险预判。正如作者强调,当机器人能"预见"而非仅"看见"手术流程时,真正的认知增强型手术时代才会到来。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号