今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

多模态大型语言模型在评估复杂性指数、结果及需求方面的诊断性能:与正畸医生评估的比较

《BMC Oral Health》:Diagnostic performance of a multimodal large language model in assessing the index of complexity, outcome, and need: comparison with orthodontist evaluation

【字体: 大 中 小 】 时间:2026年07月03日 来源:BMC Oral Health 3.8

编辑推荐:

  摘要背景本研究评估了多模态大型语言模型Chat Generative Pretrained Transformer-5.5(ChatGPT-5.5)利用口腔照片和数字模型图像,根据复杂性、结果和需求指数(ICON)来判断正畸治疗需求的性能。同时还研究了在ICON各组成部分上的一致

  

摘要

背景

本研究评估了多模态大型语言模型Chat Generative Pretrained Transformer-5.5(ChatGPT-5.5)利用口腔照片和数字模型图像,根据复杂性、结果和需求指数(ICON)来判断正畸治疗需求的性能。同时还研究了在ICON各组成部分上的一致性以及与总ICON得分的一致性。

方法

共有104名患者提供了520张口腔照片和520张数字化模型图像。两名正畸医生独立对所有ICON组成部分(美观度、拥挤/间隙、反颌、垂直关系和颊侧关系)进行评分,那些两位医生评分完全一致的病例被用作参考标准。通过迭代提示校准法优化了用于ChatGPT-5.5的标准化ICON提示。模型输出通过准确性、敏感性、特异性、F1分数、精确一致率、科恩卡帕值以及类内相关系数来评估。此外,还为二元治疗需求判断生成了混淆矩阵和ROC曲线。

结果

ChatGPT-5.5在处理口腔照片时的整体准确率为74.0%,而在处理模型图像时的准确率为72.1%。对于需要治疗的病例,其召回率较高(分别为0.871和1.00),而对于不需要治疗的病例,召回率则明显较低(分别为0.471和0.147)。在各组成部分上的评分一致性差异较大,尤其是拥挤/间隙和垂直关系方面,照片和模型之间的差异较为显著。在前后向关系评估中,模型的准确率更高。总体ICON得分的ICC值为照片为0.463(可靠性中等),模型为0.154(可靠性较差)。AUC值分别为0.671和0.574,表明其区分能力有限。

结论

尽管作为多模态大型语言模型的ChatGPT-5.5在正畸治疗需求的双分类任务中表现出一定的准确率,但由于其在ICON各组成部分上的表现不稳定,且存在高估治疗需求的倾向,因此目前其在临床应用中的可靠性仍有限。因此,临床决策应继续以专家判断为依据。

背景

本研究评估了多模态大型语言模型Chat Generative Pretrained Transformer-5.5(ChatGPT-5.5)利用口腔照片和数字模型图像,根据复杂性、结果和需求指数(ICON)来判断正畸治疗需求的性能。同时还研究了在ICON各组成部分上的一致性以及与总ICON得分的一致性。

方法

共有104名患者提供了520张口腔照片和520张数字化模型图像。两名正畸医生独立对所有ICON组成部分(美观度、拥挤/间隙、反颌、垂直关系和颊侧关系)进行评分,那些两位医生评分完全一致的病例被用作参考标准。通过迭代提示校准法优化了用于ChatGPT-5.5的标准化ICON提示。模型输出通过准确性、敏感性、特异性、F1分数、精确一致率、科恩卡帕值以及类内相关系数来评估。此外,还为二元治疗需求判断生成了混淆矩阵和ROC曲线。

结果

ChatGPT-5.5在处理口腔照片时的整体准确率为74.0%,而在处理模型图像时的准确率为72.1%。对于需要治疗的病例,其召回率较高(分别为0.871和1.00),而对于不需要治疗的病例,召回率则明显较低(分别为0.471和0.147)。在各组成部分上的评分一致性差异较大,尤其是拥挤/间隙和垂直关系方面,照片和模型之间的差异较为显著。在前后向关系评估中,模型的准确率更高。总体ICON得分的ICC值为照片为0.463(可靠性中等),模型为0.154(可靠性较差)。AUC值分别为0.671和0.574,表明其区分能力有限。

结论

尽管作为多模态大型语言模型的ChatGPT-5.5在正畸治疗需求的双分类任务中表现出一定的准确率,但由于其在ICON各组成部分上的表现不稳定,且存在高估治疗需求的倾向,因此目前其在临床应用中的可靠性仍有限。因此,临床决策应继续以专家判断为依据。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:口腔照片、数字模型、矫正指数、双分类任务、高估倾向、临床决策

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号