今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

将GPT-5、Gemini 2.5 Pro、Grok 4以及其他大型语言模型(LLMs)在牙科专业考试中的儿科牙科问题上的表现进行基准测试

《Scientific Reports》:Benchmarking GPT-5, Gemini 2.5 Pro, Grok 4, and other LLMs on pediatric dentistry questions from a dental specialization exam

【字体: 大 中 小 】 时间:2026年06月12日 来源:Scientific Reports 3.9

编辑推荐:

  摘要人工智能(AI),尤其是大型语言模型(LLMs),在医学和牙科教育中正变得越来越重要。这些模型通过深度学习和自然语言处理(NLP)技术进行训练,能够理解文本含义、生成内容并处理复杂信息。它们在教育应用方面具有巨大潜力,例如辅助考试准备和个性化学习。此外,它们在临床病例识别方面

  

摘要

人工智能(AI),尤其是大型语言模型(LLMs),在医学和牙科教育中正变得越来越重要。这些模型通过深度学习和自然语言处理(NLP)技术进行训练,能够理解文本含义、生成内容并处理复杂信息。它们在教育应用方面具有巨大潜力,例如辅助考试准备和个性化学习。此外,它们在临床病例识别方面的表现表明,它们有可能被用于诊断决策支持系统。本研究旨在评估最先进的大型语言模型(LLMs)在土耳其牙科专业考试(DUS)中的表现,该考试是针对研究生培训的高风险国家级考试。研究人员收集了过去十年DUS中的119道牙科专业题目,并将其提交给11个最新开发的LLMs(其中17个模型支持推理模式),包括GPT-5、Gemini 2.5 Pro、Grok-4和DeepSeek R1)。计算并比较了每个模型的准确率(%)和平均响应生成时间(秒)。结果显示,Gemini 2.5 Pro的平均得分显著高于其他所有模型,除了GPT-4(78.15%)、GPT-5(90.76%)、GPTOSS(78.99%和75.63%)以及Grok-4(88.24%)。GPT-5和Grok-4也表现出类似的趋势。相比之下,Qwen-3(推理模式:49.58%,非推理模式:54.62%)和MedGemma(58.82%)在大多数比较中的准确率明显较低。总体而言,Gemini 2.5 Pro和GPT-5的准确率最高,而Qwen-3和MedGemma的表现最差。虽然像Gemma、LLaMA和Mistral这样的模型响应时间较快(<1秒),但其准确率相对较低。相比之下,需要大量推理的模型(如DeepSeek R1)虽然准确率有所提高,但生成时间过长(长达68秒)。LLMs在牙科专业题目上的表现存在很大差异:顶级模型(尤其是Gemini 2.5 Pro和GPT-5)的准确率接近专家水平,而其他模型(如Qwen-3)则表现较差。这里存在一个明显的速度与准确率之间的权衡:虽然推理模式可以提高准确率,但速度过慢,而快速模型则准确率较低。这种差异性要求在将LLMs应用于高风险牙科教育或评估之前进行仔细验证。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:大型语言模型|DUS|准确率|推理模式|Gemini|GPT-5|Grok-4|MedGemma|深度学习|速度评估|权衡

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号