ChatGPT-4、Gemini与DeepSeek-V3在台湾牙科技师认证考试中的表现及三周自我学习能力评估

【字体: 时间:2025年07月22日 来源:Journal of Dental Sciences 3.4

编辑推荐:

  研究人员针对大型语言模型(LLMs)在牙科教育中的潜力,评估了ChatGPT-4、Gemini和DeepSeek-V3在台湾牙科技师认证考试(TNDTLE)194道选择题中的表现及自我学习能力。结果显示,DeepSeek-V3初始准确率最高(69.6%),而Gemini在三周内表现出显著自我学习能力(AR提升至67.0%),ChatGPT-4则稳定性强但学习能力有限。该研究为LLMs在牙科专业教育中的应用提供了实证依据。

  

在人工智能技术飞速发展的今天,大型语言模型(LLMs)如ChatGPT-4、Gemini和DeepSeek-V3已在多个领域展现出强大的潜力。然而,这些模型在专业医学教育,尤其是牙科领域的应用效果尚不明确。台湾牙科技师认证考试(TNDTLE)作为专业资格认证的重要标准,其题目涵盖口腔解剖学、修复技术等9个学科,是评估LLMs专业能力的理想工具。研究人员开展了一项开创性研究,首次系统评估了三大LLMs在TNDTLE中的表现及自我学习能力,相关成果发表在《Journal of Dental Sciences》上。

研究采用194道纯文本选择题,分四个时间点(初始、1周、2周、3周后)测试三大模型的准确率(AR)。通过卡方检验分析AR变化,并比较不同学科(4门基础学科与5门临床学科)的表现差异。

初始准确率与时间变化
DeepSeek-V3以69.6%的初始AR领先(P<0.001),但三周内未显著提升;Gemini初始AR为57.2%,1周后显著提高至67.0%(P=0.028),展现短期自我学习能力;ChatGPT-4初始AR仅52.1%,且波动微小(56.2%→52.1%)。

学科差异
基础学科AR普遍高于临床学科,但差异无统计学意义。例如,DeepSeek-V3在口腔解剖学(初始90%)和儿科牙科技术(77.8%)表现突出;Gemini在牙科材料科学(47.4%→63.2%)和活动义齿技术(50%→75%)进步显著。

讨论与意义
该研究揭示了LLMs在牙科教育中的差异化表现:DeepSeek-V3凭借专业训练数据实现高初始AR,但缺乏自适应能力;Gemini的短期学习能力可能源于后台数据更新机制;ChatGPT-4的稳定性提示其依赖静态知识库。值得注意的是,Gemini在法规伦理学科(70%→90%)的突破性表现,为LLMs在专业合规培训中的应用提供了新思路。

这一研究不仅为牙科教育者选择AI辅助工具提供了科学依据,更开创了LLMs动态评估范式。未来研究可结合多模态输入(如图像识别)进一步拓展应用场景,推动AI与专业医学教育的深度融合。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号