编辑推荐:
本综述聚焦视觉语言模型(VLMs)在泌尿外科手术的应用,介绍其在手术图像临床问答、器械识别、阶段划分及操作 error 检测等进展,分析高质量数据集匮乏等挑战,展望其通过多模态 AI 系统辅助手术的前景。
视觉语言模型在泌尿外科手术中的应用与挑战
摘要
视觉语言模型(VLMs)将手术视频、医学图像等视觉数据与文本信息融合,为手术领域的人工智能(AI)能力提升提供支持。本综述概述 VLMs 在泌尿外科手术任务中的最新进展,包括针对手术图像的临床问题解答、手术器械识别、手术阶段识别及手术过程中的错误检测。尽管 VLMs 潜力显著,但仍面临高质量数据集有限等重大挑战。未来发展依赖于克服这些限制、增强 VLMs 的鲁棒性和可靠性,以及创建标准化数据集。VLMs 有望推动集成多模态 AI 系统的发展,通过自动化指导、教育支持和性能评估为外科医生提供帮助。
患者总结
本综述探索了将视觉图像与文本相结合以在手术中辅助外科医生的新型人工智能(AI)工具。这些 AI 工具可识别器械、确定手术阶段并解答与手术相关的问题。改进后的工具未来有望助力提升手术的安全性和效率。
引言
大型语言模型(LLMs)通过对互联网大规模文本的预训练,在基于文本的医疗任务中展现出强大且多样的能力,在医疗领域的应用不断拓展。然而,由于外科手术本质上具有多模态性且以视觉信息为主,LLMs 在该领域的适用性较为有限。视觉语言模型(VLMs)的引入旨在填补这一空白,其将手术视频、医学图像等视觉数据与对话、问题、电子健康记录(EHRs)和表格数据等文本信息相连接。LLMs 和多模态学习的最新进展激发了将 VLMs 应用于外科手术领域的兴趣,使这些系统能够理解、推理并就手术场景进行对话。在日常临床实践中,医疗专业人员依赖多种数据模态来诊断和治疗各种疾病。VLMs 体现了 AI 发展中被称为多模态学习的广泛趋势,即模型通过多种数据模态(如图像、EHRs、实验室检查)进行训练,而非仅依赖单一类型的输入(如仅图像)。这一转变提升了性能,并拓展了 AI 任务的范围,是对早期一次仅处理一种数据模态模型的重大改进。本综述介绍了外科 VLMs 的最新进展,以帮助理解这项新技术在泌尿外科中的潜力,参考了该主题的关键文献,探讨了未来趋势,并讨论了当前面临的挑战。本文并非系统综述,因此存在固有的选择偏倚,是一篇范围界定型的小型综述,重点介绍了我们认为特别相关的研究,并非全面综述。
VLMs in urological surgery
视觉语言模型(VLM)旨在处理和集成视觉与文本数据,使其能够结合自然语言理解图像或视频。通常,VLM 由视觉编码器(如卷积神经网络或基于 Transformer 的模型)和语言模型组成。视觉编码器从图像中提取有意义的特征,语言模型则负责解释和生成文本,两者通过多模态融合模块连接,该模块将视觉嵌入(图像的数值表示)与语言嵌入(文本的数值表示)对齐。
Conclusions
尽管视觉语言模型(VLMs)仍处于起步阶段,但该领域的快速进展证明了这项技术的潜力。大型多模态模型已在各种任务中表现出强大的能力。本综述证实了未来的趋势并非针对每个任务都有一个独立的 AI 模型,而是出现一个结合多种模态并能执行多项任务的大型通用 AI 模型。在泌尿外科中,这些任务可能包括从手术视频自动生成手术报告等。