基于深度集成学习的外科手术阶段识别鲁棒性研究

《International Journal of Computer Assisted Radiology and Surgery》:Toward robust surgical phase recognition via deep ensemble learning

【字体: 时间:2025年11月10日 来源:International Journal of Computer Assisted Radiology and Surgery 2.3

编辑推荐:

  本研究针对单一深度学习模型在外科手术阶段识别(SPR)任务中存在的局限性,提出了一种深度集成学习方法。研究人员通过整合14种不同架构的深度学习模型,并采用多数投票等12种元模型策略,在Cholec80数据集上系统评估了集成效果。结果表明,多数投票策略的集成方法显著提升了识别性能,F1-score提升达3.68%,有效降低了关键阶段的误分类,为手术室情境感知系统提供了更可靠的AI支持。

  
手术室的数字化转型已成为现代医学研究的焦点,其中人工智能技术在改善外科工作流程方面发挥着关键作用。外科手术阶段自动识别(SPR)作为AI在手术中最具影响力的应用之一,能够通过自动化程序记录等任务来增强术中指导并减轻手术室人员的工作负担。然而,由于手术程序的复杂性,实现高精度的阶段识别仍然面临挑战。虽然近年来深度学习模型取得了显著进展,但单个模型往往存在局限性——有些擅长捕捉空间特征,而另一些则更擅长建模时间依赖关系或处理类别不平衡问题。
在这项发表于《International Journal of Computer Assisted Radiology and Surgery》的研究中,研究人员探索了一种创新的解决方案:通过深度集成学习结合不同架构的互补优势,旨在减轻单个模型的弱点并提高外科手术阶段识别的性能。该研究基于广泛使用的Cholec80数据集,这是一个包含80个腹腔镜胆囊切除术视频的基准数据集,由13名不同外科医生完成,每个视频都标注了七个不同的手术阶段。
研究方法主要包含几个关键技术环节:首先,研究人员选择了四种先进的基础模型架构,包括时间卷积网络(TeCNO)、基于Transformer的模型(Trans-SVNet)和两种基于长短期记忆(LSTM)的模型(MTRCNet和TMRNet)。为了增加集成多样性,还通过改变特征图数量和MSTCN层数等参数创建了模型变体,最终形成了14个不同的模型。其次,研究采用了 stacking 集成学习框架,将基础模型的类别概率向量通过12种不同的元模型进行组合。特别值得注意的是,研究团队提出了专门的StackingNet元学习器,这是一个三层前馈神经网络,能够学习基础模型预测之间的复杂关系。此外,研究设计了五组不同的集成配置(A-E),系统性地评估了模型架构、骨干网络和性能水平对集成效果的影响。
模型架构基础集成性能分析
通过比较由相同架构变体组成的集成(A1-A4),研究发现包含多个网络变体的集成能够比单个模型获得更高的分类性能。特别是使用ResNet50和ResNeSt50不同配置的A1和A2集成,在多数投票元模型下分别实现了1.61%和2.91%的改进。这表明模型配置的多样性有助于集成捕捉更广泛的特征表示。而仅包含两个网络的A3和A4集成改进较为有限,说明网络数量是影响集成效果的重要因素。
骨干网络对集成效果的影响
基于ResNet50(B1)和ResNeSt50(B2)骨干网络的集成分析显示,不同骨干网络组合都能带来性能提升,但改进幅度存在差异。这表明骨干网络的选择确实影响特征提取能力,而集成学习能够有效融合不同骨干网络的优势。
性能导向的集成配置比较
通过构建基于F1-score排名的性能导向集成(C1-C4),研究发现包含各架构最佳模型的C1集成并未超越包含更多模型的C4集成。C4集成在多数投票下达到了87.27%的最高F1-score,相比最佳单一模型提升了3.68%。这表明集成性能主要随着包含网络数量的增加而提高,而不仅仅是选择最佳个体模型。数量和质量共同在集成有效性中扮演关键角色。
异构模型架构集成效果
通过比较异构架构集成(D1-D4),研究发现结合不同架构类型的集成通常比单一架构集成表现更好。特别是D1集成(结合Trans-SVNet和TeCNO模型)和D4集成(结合TeCNO和MTRCNet模型)都显示了显著的性能改进,进一步证实了架构多样性对集成效果的重要性。
元模型性能比较
在12种元模型中,多数投票表现最为突出,在15种配置中的12种排名第一,特别是在C4集成中实现了3.71%的改进。StackingNet紧随其后,在三种配置中排名第一,11种配置中排名第二。逻辑回归也表现出竞争力。研究观察到多数投票的有效性随着集成中模型数量的增加而提高,这与集成多样性有助于减轻偏见和捕捉更广泛数据模式的观点一致。
研究结论与讨论部分强调了几个关键发现。首先,集成学习能够显著提升外科手术阶段识别的性能,最优集成配置相比最佳个体模型在准确率、F1-score和Jaccard指数上分别提升了1.48%、3.68%和5.43%。Jaccard指数的显著提高表明集成改善了预测类别与实际类别之间的对齐,导致更精确的分类。其次,模型多样性、集成规模和元模型选择被确定为影响性能的关键因素。大型集成通常与多数投票等统计方法配合效果更好,而包含较少模型的集成可能更受益于能够学习预测间复杂关系的元模型。
从临床角度看,改进的阶段识别精度对术中辅助系统具有实际意义。高多样性集成减少了关键阶段转换期间的误分类,从而支持可靠的情境感知决策。即使是几个百分点的绝对改进,也能显著降低真实手术程序中的错误率。这转化为更一致的工作流程预测、增强对AI驱动系统的信任以及提高手术安全性。
研究还讨论了动态集成管理框架的临床部署潜力,通过定期更新集成配置,基于持续更新的验证集自动监控性能指标,确保只有最佳性能模型保持活跃。同时,作者也指出了集成方法在计算和能源需求方面的权衡,强调在临床应用中需要平衡精度提升与效率考虑。
该研究的严格评估协议值得注意,选择严格边界而非宽松边界确保了报告的改进更真实地反映识别进展,而非评估设置的伪影。虽然研究设计的集成策略没有穷尽所有可能的14个基础模型组合,但针对性的配置使得能够系统性地回答特定研究问题,为未来更广泛的集成方法探索奠定了坚实基础。
总体而言,这项研究证明了集成学习通过利用多种深度学习模型的互补优势,能够显著增强外科手术阶段识别。这些改进转化为临床上有意义的益处,实现更可靠的情境感知指导,减少关键阶段的误分类,并提高外科医生对人工智能系统的信任。未来工作可以扩展到更广泛的架构组合或纳入替代范式,如基础模型层面的提升策略或元模型层面的贝叶斯聚合,进一步发掘集成学习在外科手术阶段识别中的潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号