今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

多模态大型语言模型在伤口图像评估中的性能、安全性及其局限性

《Scientific Reports》:Performance, safety, and limitations of multimodal large language models in wound image assessment

【字体: 大 中 小 】 时间:2026年06月12日 来源:Scientific Reports 3.9

编辑推荐:

  摘要对急性伤口、慢性伤口和手术伤口进行准确的视觉评估是临床决策的基础,目前在常规护理和远程护理中越来越多地使用数字伤口照片来进行评估。然而,伤口图像的解读仍然具有主观性,并且不同临床医生的解读结果存在差异。随着具备视觉能力的大型语言模型(LLMs)的迅速发展,尽管这些模型在特定任

  

摘要

对急性伤口、慢性伤口和手术伤口进行准确的视觉评估是临床决策的基础,目前在常规护理和远程护理中越来越多地使用数字伤口照片来进行评估。然而,伤口图像的解读仍然具有主观性,并且不同临床医生的解读结果存在差异。随着具备视觉能力的大型语言模型(LLMs)的迅速发展,尽管这些模型在特定任务上的验证有限,但它们已被非正式地用于伤口描述和临床解读。为了解决这一问题,我们比较了三种先进的具备视觉能力的大型语言模型(ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini Advanced),使用标准化的临床框架对伤口图像进行了评估。从常规护理中获得的 1,200 张临床伤口照片中,随机选取了 450 张照片(其中急性伤口 150 张、慢性伤口 150 张、手术伤口 150 张),并由三位专家临床医生独立审查,以建立专家共识参考标准。每个模型都收到了相同的提示,这些提示包含了 Bates–Jensen 伤口评估工具(BWAT)和 TIMES 框架,评估结果涵盖了诊断准确性、评估质量、治疗建议的合理性、安全性、可理解性和可操作性;信息质量则通过 DISCERN 和 PEMAT-P 进行评估。ChatGPT-4o 在诊断(51.3%)、临床结论(52.4%)和治疗建议(53.6%)方面取得了最高的准确率,而 Claude 在伤口尺寸测量(72.0%)和紧急程度判断(70.9%)方面表现最佳。Gemini 则存在显著局限性,在多个评估领域中有 67–68% 的情况未给出响应,其临床和安全性能也是最低的。总体而言,ChatGPT-4o 最一致地生成了准确、结构化且符合临床标准的伤口评估结果。然而,研究结果也揭示了其在可靠性、安全性和实际应用方面的局限性,这表明在将其纳入常规临床护理之前,还需要进一步的验证和明确的保障措施。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:急性伤口评估|慢性伤口识别|手术伤口处理|领域专长性视觉模型|临床诊断可靠性|医生操作可行

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号