AI聊天机器人在牙髓病临床决策支持中的性能比较：一项为期4天的准确性与一致性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月31日 来源：International Dental Journal 3.7

编辑推荐：

　　本研究针对AI聊天机器人在牙髓病学临床决策中的可靠性问题，由Mersin大学团队对ChatGPT-3.5/4.0、Gemini 2.0 Flash和Copilot系列模型开展多维度评估。研究发现ChatGPT-4.0总体准确率达82.5%，在基础问题中表现完美（95%），而Copilot Pro准确率最低（74.03%），为临床AI工具选择提供重要依据。

当牙医面对复杂的根管治疗决策时，能否像咨询专家一样依赖AI助手？这个问题随着ChatGPT等大型语言模型(LLM)的爆发式发展变得愈发紧迫。尽管人工智能在医疗领域的应用日益广泛，但关于其可靠性和准确性的担忧始终存在——尤其是在需要高度专业知识的牙髓病学领域，一个错误的诊断建议可能导致治疗失败甚至牙齿丧失。

土耳其梅尔辛大学（Mersin University, Turkey）牙学院牙髓病学系的研究团队Mine Büker、Meltem Sümbüllü和Hakan Arslan开展了一项开创性研究，首次系统比较了五种主流AI聊天机器人（ChatGPT-3.5、ChatGPT-4.0、Gemini 2.0 Flash、Copilot和Copilot Pro）在回答标准化牙髓病学问题时的表现。这项发表在《International Dental Journal》的研究揭示：最先进的GPT-4模型并非在所有场景下都表现最佳，而谷歌的Gemini则展现出令人惊讶的学习进化能力。

研究人员采用严格的方法学设计：基于美国牙髓病学会(AAE)指南开发76道判断题，经专家验证后筛选60题并按难度分级（基础/中级/高级）。通过4天内12个时间点（每日早中晚）的重复测试，收集总计3,600条回答。数据分析采用Kruskal-Wallis检验和Cochran Q测试，并计算置信区间评估一致性。

整体与难度分级准确率比较
ChatGPT-4.0以82.5%的总体准确率领先，尤其在基础问题中达到95%的近乎完美表现。出人意料的是，谷歌Gemini在中级问题中以91.7%的准确率超越所有对手，达到临床可接受的诊断阈值。微软的Copilot Pro则表现垫底（74.03%），且在基础问题中准确率随时间显著下降。

时间维度上的性能演化
Gemini展现出显著的"学习曲线"——在高级问题中，第4天比第2天准确率提升达统计学显著水平。相反，Copilot Pro则出现性能退化，暗示商业版AI可能因过度更新而产生"幻觉"。值得注意的是，ChatGPT系列表现出惊人的稳定性，4天内波动不足1%。

一致性评估结果
所有模型内部一致性系数均高于0.93，其中ChatGPT-4.0以0.988的数值接近完美。这颠覆了既往认为LLM必然存在高变异性的认知，证明经过专业训练的AI在特定领域可提供稳定输出。

这项研究的重要发现在于：不同AI模型存在明显的"专业特长分化"——GPT-4擅长基础知识，Gemini精于临床推理，而Copilot系列可能因实时网络检索引入噪声。研究者特别指出，AI表现与模型架构密切相关：基于GPT-4架构的ChatGPT依赖海量预训练数据，而采用PaLM 2架构的Gemini则展现出更强的上下文理解能力。

该研究对临床实践具有直接指导价值：当处理常规牙髓病问题时，ChatGPT-4.0可作为可靠的一线决策支持工具；面对复杂病例时，建议交叉验证Gemini的进化型答案。但作者强调，这些AI工具必须与专业判断结合使用，特别是在当前模型仍存在7-25%错误率的情况下。未来研究方向应包括多模态（结合影像学）评估和多语言验证，以进一步推动AI在牙科领域的精准应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号