
-
生物通官微
陪你抓住生命科技
跳动的脉搏
外科医生与计算机视觉的巅峰对决:基于时空上下文的手术阶段识别能力比较研究
【字体: 大 中 小 】 时间:2025年06月01日 来源:International Journal of Computer Assisted Radiology and Surgery 2.3
编辑推荐:
为解决复杂非线性手术(如机器人辅助肾部分切除术RAPN)阶段识别难题,Marco Mezzina团队通过定制化网络平台对比泌尿科专家与AI模型(ResNet50-LSTM/TeCNO)的性能。研究发现,视频片段和特定视觉标志物可提升分类准确率,AI模型表现与专家相当,且时空上下文显著改善识别效果。该研究为手术数据科学(SDS)和深度学习(DL)在自动化手术阶段识别(SPR)中的应用提供了关键基准。
在当今数字化手术时代,手术视频已成为教育、技能评估和术后分析的核心资源。然而,如何高效地从海量视频中提取关键信息仍是一个巨大挑战。手术阶段识别(Surgical Phase Recognition, SPR)技术应运而生,它通过人工智能(AI)将手术流程分解为关键阶段,为视频索引和标准化分析提供基础。尽管此前研究在胆囊切除术等线性短程手术中取得进展,但对于机器人辅助肾部分切除术(Robot-Assisted Partial Nephrectomy, RAPN)这类高度非线性、时长达2小时以上的复杂手术,SPR仍面临严峻挑战——包括阶段过渡模糊、解剖变异大以及工具与组织交互复杂等问题。
为此,来自比利时奥西学院(Orsi Academy)和鲁汶大学的Marco Mezzina团队开展了一项开创性研究,首次系统比较了人类专家与计算机视觉在RAPN手术阶段识别中的表现。研究通过定制化网络平台收集了100名泌尿科从业者(从医学生到资深顾问)对单帧图像和10秒视频片段的分类数据,同时训练了ResNet50-LSTM和TeCNO等深度学习模型进行平行测试。结果发现:人类专家在视频片段条件下的准确率比单帧提升12%,其中资深顾问表现最佳(53.2%准确率),但存在过度自信倾向;而AI模型在完整数据集训练后甚至超越人类表现(TeCNO模型达61.6%准确率),且60秒时长的时空上下文能显著降低分类混淆度(L1/2 Norm降至0.23)。值得注意的是,手术工具(出现频次92次)和器官状态(81次)是人类决策的关键标志物,这与AI模型依赖的视觉特征高度吻合。该成果发表于《International Journal of Computer Assisted Radiology and Surgery》,为复杂手术的自动化分析建立了新标准。
关键技术方法包括:1)基于正态分布采样策略从143例RAPN视频中提取代表性帧/片段;2)构建含ResNet50-LSTM(10秒/60秒缓冲)和TeCNO的对比实验框架;3)采用五折交叉验证评估数据稀缺场景(25%-100%数据集)下的模型鲁棒性;4)通过Wilcoxon符号秩检验和L1/2范数量化人类与AI的决策差异。
研究结果部分揭示多项重要发现:
结论与讨论指出,这项研究首次证实了复杂手术SPR的可行性边界——无论是人类专家还是AI模型,其识别性能都高度依赖时空上下文,且两者在相同数据条件下的表现趋同。这一发现挑战了"AI必然优于人类"的固有认知,强调未来研究应聚焦三个方向:1)开发融合器官分割掩膜的多任务学习框架;2)探索分钟级长程时序建模以解决阶段模糊问题;3)优化专家标注策略以降低确认偏误。该工作不仅为手术室实时决策支持系统奠定基础,更通过量化人类认知模式,为构建可解释性AI提供了独特视角。正如作者所言:"当给定相同上下文时,人类与算法的表现同样出色——这或许正是智能外科未来的起点。"
生物通微信公众号
知名企业招聘