
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多模态大型语言模型在评估复杂性指数、结果及需求方面的诊断性能:与正畸医生评估的比较
《BMC Oral Health》:Diagnostic performance of a multimodal large language model in assessing the index of complexity, outcome, and need: comparison with orthodontist evaluation
【字体: 大 中 小 】 时间:2026年07月03日 来源:BMC Oral Health 3.8
编辑推荐:
摘要背景本研究评估了多模态大型语言模型Chat Generative Pretrained Transformer-5.5(ChatGPT-5.5)利用口腔照片和数字模型图像,根据复杂性、结果和需求指数(ICON)来判断正畸治疗需求的性能。同时还研究了在ICON各组成部分上的一致
本研究评估了多模态大型语言模型Chat Generative Pretrained Transformer-5.5(ChatGPT-5.5)利用口腔照片和数字模型图像,根据复杂性、结果和需求指数(ICON)来判断正畸治疗需求的性能。同时还研究了在ICON各组成部分上的一致性以及与总ICON得分的一致性。
共有104名患者提供了520张口腔照片和520张数字化模型图像。两名正畸医生独立对所有ICON组成部分(美观度、拥挤/间隙、反颌、垂直关系和颊侧关系)进行评分,那些两位医生评分完全一致的病例被用作参考标准。通过迭代提示校准法优化了用于ChatGPT-5.5的标准化ICON提示。模型输出通过准确性、敏感性、特异性、F1分数、精确一致率、科恩卡帕值以及类内相关系数来评估。此外,还为二元治疗需求判断生成了混淆矩阵和ROC曲线。
ChatGPT-5.5在处理口腔照片时的整体准确率为74.0%,而在处理模型图像时的准确率为72.1%。对于需要治疗的病例,其召回率较高(分别为0.871和1.00),而对于不需要治疗的病例,召回率则明显较低(分别为0.471和0.147)。在各组成部分上的评分一致性差异较大,尤其是拥挤/间隙和垂直关系方面,照片和模型之间的差异较为显著。在前后向关系评估中,模型的准确率更高。总体ICON得分的ICC值为照片为0.463(可靠性中等),模型为0.154(可靠性较差)。AUC值分别为0.671和0.574,表明其区分能力有限。
尽管作为多模态大型语言模型的ChatGPT-5.5在正畸治疗需求的双分类任务中表现出一定的准确率,但由于其在ICON各组成部分上的表现不稳定,且存在高估治疗需求的倾向,因此目前其在临床应用中的可靠性仍有限。因此,临床决策应继续以专家判断为依据。
本研究评估了多模态大型语言模型Chat Generative Pretrained Transformer-5.5(ChatGPT-5.5)利用口腔照片和数字模型图像,根据复杂性、结果和需求指数(ICON)来判断正畸治疗需求的性能。同时还研究了在ICON各组成部分上的一致性以及与总ICON得分的一致性。
共有104名患者提供了520张口腔照片和520张数字化模型图像。两名正畸医生独立对所有ICON组成部分(美观度、拥挤/间隙、反颌、垂直关系和颊侧关系)进行评分,那些两位医生评分完全一致的病例被用作参考标准。通过迭代提示校准法优化了用于ChatGPT-5.5的标准化ICON提示。模型输出通过准确性、敏感性、特异性、F1分数、精确一致率、科恩卡帕值以及类内相关系数来评估。此外,还为二元治疗需求判断生成了混淆矩阵和ROC曲线。
ChatGPT-5.5在处理口腔照片时的整体准确率为74.0%,而在处理模型图像时的准确率为72.1%。对于需要治疗的病例,其召回率较高(分别为0.871和1.00),而对于不需要治疗的病例,召回率则明显较低(分别为0.471和0.147)。在各组成部分上的评分一致性差异较大,尤其是拥挤/间隙和垂直关系方面,照片和模型之间的差异较为显著。在前后向关系评估中,模型的准确率更高。总体ICON得分的ICC值为照片为0.463(可靠性中等),模型为0.154(可靠性较差)。AUC值分别为0.671和0.574,表明其区分能力有限。
尽管作为多模态大型语言模型的ChatGPT-5.5在正畸治疗需求的双分类任务中表现出一定的准确率,但由于其在ICON各组成部分上的表现不稳定,且存在高估治疗需求的倾向,因此目前其在临床应用中的可靠性仍有限。因此,临床决策应继续以专家判断为依据。