多模态大型语言模型在评估复杂性指数、结果及需求方面的诊断性能：与正畸医生评估的比较

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BMC Oral Health》：Diagnostic performance of a multimodal large language model in assessing the index of complexity, outcome, and need: comparison with orthodontist evaluation

【字体：大中小】 时间：2026年07月03日 来源：BMC Oral Health 3.8

编辑推荐：

　　摘要背景本研究评估了多模态大型语言模型Chat Generative Pretrained Transformer-5.5（ChatGPT-5.5）利用口腔照片和数字模型图像，根据复杂性、结果和需求指数（ICON）来判断正畸治疗需求的性能。同时还研究了在ICON各组成部分上的一致

摘要

背景

本研究评估了多模态大型语言模型Chat Generative Pretrained Transformer-5.5（ChatGPT-5.5）利用口腔照片和数字模型图像，根据复杂性、结果和需求指数（ICON）来判断正畸治疗需求的性能。同时还研究了在ICON各组成部分上的一致性以及与总ICON得分的一致性。

方法

共有104名患者提供了520张口腔照片和520张数字化模型图像。两名正畸医生独立对所有ICON组成部分（美观度、拥挤/间隙、反颌、垂直关系和颊侧关系）进行评分，那些两位医生评分完全一致的病例被用作参考标准。通过迭代提示校准法优化了用于ChatGPT-5.5的标准化ICON提示。模型输出通过准确性、敏感性、特异性、F1分数、精确一致率、科恩卡帕值以及类内相关系数来评估。此外，还为二元治疗需求判断生成了混淆矩阵和ROC曲线。

结果

ChatGPT-5.5在处理口腔照片时的整体准确率为74.0%，而在处理模型图像时的准确率为72.1%。对于需要治疗的病例，其召回率较高（分别为0.871和1.00），而对于不需要治疗的病例，召回率则明显较低（分别为0.471和0.147）。在各组成部分上的评分一致性差异较大，尤其是拥挤/间隙和垂直关系方面，照片和模型之间的差异较为显著。在前后向关系评估中，模型的准确率更高。总体ICON得分的ICC值为照片为0.463（可靠性中等），模型为0.154（可靠性较差）。AUC值分别为0.671和0.574，表明其区分能力有限。

结论

尽管作为多模态大型语言模型的ChatGPT-5.5在正畸治疗需求的双分类任务中表现出一定的准确率，但由于其在ICON各组成部分上的表现不稳定，且存在高估治疗需求的倾向，因此目前其在临床应用中的可靠性仍有限。因此，临床决策应继续以专家判断为依据。

背景

本研究评估了多模态大型语言模型Chat Generative Pretrained Transformer-5.5（ChatGPT-5.5）利用口腔照片和数字模型图像，根据复杂性、结果和需求指数（ICON）来判断正畸治疗需求的性能。同时还研究了在ICON各组成部分上的一致性以及与总ICON得分的一致性。

方法

共有104名患者提供了520张口腔照片和520张数字化模型图像。两名正畸医生独立对所有ICON组成部分（美观度、拥挤/间隙、反颌、垂直关系和颊侧关系）进行评分，那些两位医生评分完全一致的病例被用作参考标准。通过迭代提示校准法优化了用于ChatGPT-5.5的标准化ICON提示。模型输出通过准确性、敏感性、特异性、F1分数、精确一致率、科恩卡帕值以及类内相关系数来评估。此外，还为二元治疗需求判断生成了混淆矩阵和ROC曲线。

结果

ChatGPT-5.5在处理口腔照片时的整体准确率为74.0%，而在处理模型图像时的准确率为72.1%。对于需要治疗的病例，其召回率较高（分别为0.871和1.00），而对于不需要治疗的病例，召回率则明显较低（分别为0.471和0.147）。在各组成部分上的评分一致性差异较大，尤其是拥挤/间隙和垂直关系方面，照片和模型之间的差异较为显著。在前后向关系评估中，模型的准确率更高。总体ICON得分的ICC值为照片为0.463（可靠性中等），模型为0.154（可靠性较差）。AUC值分别为0.671和0.574，表明其区分能力有限。

结论

尽管作为多模态大型语言模型的ChatGPT-5.5在正畸治疗需求的双分类任务中表现出一定的准确率，但由于其在ICON各组成部分上的表现不稳定，且存在高估治疗需求的倾向，因此目前其在临床应用中的可靠性仍有限。因此，临床决策应继续以专家判断为依据。

联系信箱：

粤ICP备09063491号

摘要

背景

方法

结果

结论

背景

方法

结果

结论

热点排行