
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多模态大型语言模型在伤口图像评估中的性能、安全性及其局限性
《Scientific Reports》:Performance, safety, and limitations of multimodal large language models in wound image assessment
【字体: 大 中 小 】 时间:2026年06月12日 来源:Scientific Reports 3.9
编辑推荐:
摘要对急性伤口、慢性伤口和手术伤口进行准确的视觉评估是临床决策的基础,目前在常规护理和远程护理中越来越多地使用数字伤口照片来进行评估。然而,伤口图像的解读仍然具有主观性,并且不同临床医生的解读结果存在差异。随着具备视觉能力的大型语言模型(LLMs)的迅速发展,尽管这些模型在特定任
对急性伤口、慢性伤口和手术伤口进行准确的视觉评估是临床决策的基础,目前在常规护理和远程护理中越来越多地使用数字伤口照片来进行评估。然而,伤口图像的解读仍然具有主观性,并且不同临床医生的解读结果存在差异。随着具备视觉能力的大型语言模型(LLMs)的迅速发展,尽管这些模型在特定任务上的验证有限,但它们已被非正式地用于伤口描述和临床解读。为了解决这一问题,我们比较了三种先进的具备视觉能力的大型语言模型(ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini Advanced),使用标准化的临床框架对伤口图像进行了评估。从常规护理中获得的 1,200 张临床伤口照片中,随机选取了 450 张照片(其中急性伤口 150 张、慢性伤口 150 张、手术伤口 150 张),并由三位专家临床医生独立审查,以建立专家共识参考标准。每个模型都收到了相同的提示,这些提示包含了 Bates–Jensen 伤口评估工具(BWAT)和 TIMES 框架,评估结果涵盖了诊断准确性、评估质量、治疗建议的合理性、安全性、可理解性和可操作性;信息质量则通过 DISCERN 和 PEMAT-P 进行评估。ChatGPT-4o 在诊断(51.3%)、临床结论(52.4%)和治疗建议(53.6%)方面取得了最高的准确率,而 Claude 在伤口尺寸测量(72.0%)和紧急程度判断(70.9%)方面表现最佳。Gemini 则存在显著局限性,在多个评估领域中有 67–68% 的情况未给出响应,其临床和安全性能也是最低的。总体而言,ChatGPT-4o 最一致地生成了准确、结构化且符合临床标准的伤口评估结果。然而,研究结果也揭示了其在可靠性、安全性和实际应用方面的局限性,这表明在将其纳入常规临床护理之前,还需要进一步的验证和明确的保障措施。