将GPT-5、Gemini 2.5 Pro、Grok 4以及其他大型语言模型（LLMs）在牙科专业考试中的儿科牙科问题上的表现进行基准测试

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Benchmarking GPT-5, Gemini 2.5 Pro, Grok 4, and other LLMs on pediatric dentistry questions from a dental specialization exam

【字体：大中小】 时间：2026年06月12日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要人工智能（AI），尤其是大型语言模型（LLMs），在医学和牙科教育中正变得越来越重要。这些模型通过深度学习和自然语言处理（NLP）技术进行训练，能够理解文本含义、生成内容并处理复杂信息。它们在教育应用方面具有巨大潜力，例如辅助考试准备和个性化学习。此外，它们在临床病例识别方面

摘要

人工智能（AI），尤其是大型语言模型（LLMs），在医学和牙科教育中正变得越来越重要。这些模型通过深度学习和自然语言处理（NLP）技术进行训练，能够理解文本含义、生成内容并处理复杂信息。它们在教育应用方面具有巨大潜力，例如辅助考试准备和个性化学习。此外，它们在临床病例识别方面的表现表明，它们有可能被用于诊断决策支持系统。本研究旨在评估最先进的大型语言模型（LLMs）在土耳其牙科专业考试（DUS）中的表现，该考试是针对研究生培训的高风险国家级考试。研究人员收集了过去十年DUS中的119道牙科专业题目，并将其提交给11个最新开发的LLMs（其中17个模型支持推理模式），包括GPT-5、Gemini 2.5 Pro、Grok-4和DeepSeek R1）。计算并比较了每个模型的准确率（%）和平均响应生成时间（秒）。结果显示，Gemini 2.5 Pro的平均得分显著高于其他所有模型，除了GPT-4（78.15%）、GPT-5（90.76%）、GPTOSS（78.99%和75.63%）以及Grok-4（88.24%）。GPT-5和Grok-4也表现出类似的趋势。相比之下，Qwen-3（推理模式：49.58%，非推理模式：54.62%）和MedGemma（58.82%）在大多数比较中的准确率明显较低。总体而言，Gemini 2.5 Pro和GPT-5的准确率最高，而Qwen-3和MedGemma的表现最差。虽然像Gemma、LLaMA和Mistral这样的模型响应时间较快（<1秒），但其准确率相对较低。相比之下，需要大量推理的模型（如DeepSeek R1）虽然准确率有所提高，但生成时间过长（长达68秒）。LLMs在牙科专业题目上的表现存在很大差异：顶级模型（尤其是Gemini 2.5 Pro和GPT-5）的准确率接近专家水平，而其他模型（如Qwen-3）则表现较差。这里存在一个明显的速度与准确率之间的权衡：虽然推理模式可以提高准确率，但速度过慢，而快速模型则准确率较低。这种差异性要求在将LLMs应用于高风险牙科教育或评估之前进行仔细验证。

联系信箱：

粤ICP备09063491号

摘要

热点排行