
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多模态大型语言模型在解读牙科根尖X光片方面的诊断与定位性能
《BMC Oral Health》:Diagnostic and localization performance of multimodal large language models in the interpretation of dental periapical radiographs
【字体: 大 中 小 】 时间:2026年06月10日 来源:BMC Oral Health 3.1
编辑推荐:
摘要目的本研究旨在使用一个结构化框架,综合考虑诊断准确性、牙齿级别的解剖精度、定位能力以及各项属性的完整性,对比评估多种多模态大型语言模型(MLLMs)在解读牙根尖X光片方面的表现。材料与方法这项配对横断面研究评估了六种当前流行的MLLMs(Microsoft Copilot、C
本研究旨在使用一个结构化框架,综合考虑诊断准确性、牙齿级别的解剖精度、定位能力以及各项属性的完整性,对比评估多种多模态大型语言模型(MLLMs)在解读牙根尖X光片方面的表现。
这项配对横断面研究评估了六种当前流行的MLLMs(Microsoft Copilot、ChatGPT-o4-mini-high、ChatGPT-5.2 Thinking、Gemini 2.5 Flash、Gemini 3 Pro和Grok-3),使用了从临床档案中根据预先定义的纳入和排除标准选出的55张去标识化的牙根尖X光片。这些X光片涵盖了相互排斥的牙齿状态类别,包括龋齿、复合树脂修复体、银汞合金修复体以及健康的牙齿。在模型评估之前,由经验丰富的临床医生通过独立评估和共识确定了牙齿状态的参考标签和解剖标识符。所有模型在标准化的提示条件下对每张图像进行了评估。评估的内容包括逐渐增加复杂性的任务,如牙齿状态诊断、颌骨识别、牙齿区域确定、FDI牙齿编号、定位准确性以及各项属性的整体正确性。配对统计分析采用了Cochran’s Q检验和带有Holm多重比较调整的广义估计方程。
各模型在牙齿状态诊断方面的准确性处于中等水平且相当(45.5–60.0%),模型间没有显著差异。相比之下,在与定位相关的任务中观察到了显著的异质性,包括牙齿区域确定、FDI牙齿编号、复合树脂修复体的定位以及整体准确性(p < 0.05)。调整后的分析显示,Gemini 3 Pro在定位相关结果和整体正确性方面表现出最高的调整后准确性,在成对比较中胜过其他几个模型。但没有一个模型在单独的牙齿状态诊断任务中表现出一致的优势。
MLLMs在牙根尖X光片解读方面的表现取决于具体任务,并且随着解剖精度要求的提高而变得越来越依赖于模型本身。虽然MLLMs可以辅助放射学发现的教育和结构化讨论,但它们在自主进行牙齿级别诊断和定位方面的可靠性仍然有限。
MLLMs可以通过帮助解释基本的放射学特征来支持牙科教育和患者沟通。然而,它们在牙齿级别定位和全面解剖精度方面的可靠性较低,这表明不应将MLLMs作为基于牙根尖X光片的独立临床决策工具。
本研究旨在使用一个结构化框架,综合考虑诊断准确性、牙齿级别的解剖精度、定位能力以及各项属性的完整性,对比评估多种多模态大型语言模型(MLLMs)在解读牙根尖X光片方面的表现。
这项配对横断面研究评估了六种当前流行的MLLMs(Microsoft Copilot、ChatGPT-o4-mini-high、ChatGPT-5.2 Thinking、Gemini 2.5 Flash、Gemini 3 Pro和Grok-3),使用了从临床档案中根据预先定义的纳入和排除标准选出的55张去标识化的牙根尖X光片。这些X光片涵盖了相互排斥的牙齿状态类别,包括龋齿、复合树脂修复体、银汞合金修复体以及健康的牙齿。在模型评估之前,由经验丰富的临床医生通过独立评估和共识确定了牙齿状态的参考标签和解剖标识符。所有模型在标准化的提示条件下对每张图像进行了评估。评估的内容包括逐渐增加复杂性的任务,如牙齿状态诊断、颌骨识别、牙齿区域确定、FDI牙齿编号、定位准确性以及各项属性的整体正确性。配对统计分析采用了Cochran’s Q检验和带有Holm多重比较调整的广义估计方程。
各模型在牙齿状态诊断方面的准确性处于中等水平且相当(45.5–60.0%),模型间没有显著差异。相比之下,在与定位相关的任务中观察到了显著的异质性,包括牙齿区域确定、FDI牙齿编号、复合树脂修复体的定位以及整体准确性(p < 0.05)。调整后的分析显示,Gemini 3 Pro在定位相关结果和整体正确性方面表现出最高的调整后准确性,在成对比较中胜过其他几个模型。但没有一个模型在单独的牙齿状态诊断任务中表现出一致的优势。
MLLMs在牙根尖X光片解读方面的表现取决于具体任务,并且随着解剖精度要求的提高而变得越来越依赖于模型本身。虽然MLLMs可以辅助放射学发现的教育和结构化讨论,但它们在自主进行牙齿级别诊断和定位方面的可靠性仍然有限。
MLLMs可以通过帮助解释基本的放射学特征来支持牙科教育和患者沟通。然而,它们在牙齿级别定位和全面解剖精度方面的可靠性较低,这表明不应将MLMMs作为基于牙根尖X光片的独立临床决策工具。