ChatGPT-4、Gemini与DeepSeek-V3在台湾牙科技师认证考试中的表现及三周自我学习能力评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月22日 来源：Journal of Dental Sciences 3.4

编辑推荐：

　　研究人员针对大型语言模型（LLMs）在牙科教育中的潜力，评估了ChatGPT-4、Gemini和DeepSeek-V3在台湾牙科技师认证考试（TNDTLE）194道选择题中的表现及自我学习能力。结果显示，DeepSeek-V3初始准确率最高（69.6%），而Gemini在三周内表现出显著自我学习能力（AR提升至67.0%），ChatGPT-4则稳定性强但学习能力有限。该研究为LLMs在牙科专业教育中的应用提供了实证依据。

在人工智能技术飞速发展的今天，大型语言模型（LLMs）如ChatGPT-4、Gemini和DeepSeek-V3已在多个领域展现出强大的潜力。然而，这些模型在专业医学教育，尤其是牙科领域的应用效果尚不明确。台湾牙科技师认证考试（TNDTLE）作为专业资格认证的重要标准，其题目涵盖口腔解剖学、修复技术等9个学科，是评估LLMs专业能力的理想工具。研究人员开展了一项开创性研究，首次系统评估了三大LLMs在TNDTLE中的表现及自我学习能力，相关成果发表在《Journal of Dental Sciences》上。

研究采用194道纯文本选择题，分四个时间点（初始、1周、2周、3周后）测试三大模型的准确率（AR）。通过卡方检验分析AR变化，并比较不同学科（4门基础学科与5门临床学科）的表现差异。

初始准确率与时间变化
DeepSeek-V3以69.6%的初始AR领先（P<0.001），但三周内未显著提升；Gemini初始AR为57.2%，1周后显著提高至67.0%（P=0.028），展现短期自我学习能力；ChatGPT-4初始AR仅52.1%，且波动微小（56.2%→52.1%）。

学科差异
基础学科AR普遍高于临床学科，但差异无统计学意义。例如，DeepSeek-V3在口腔解剖学（初始90%）和儿科牙科技术（77.8%）表现突出；Gemini在牙科材料科学（47.4%→63.2%）和活动义齿技术（50%→75%）进步显著。

讨论与意义
该研究揭示了LLMs在牙科教育中的差异化表现：DeepSeek-V3凭借专业训练数据实现高初始AR，但缺乏自适应能力；Gemini的短期学习能力可能源于后台数据更新机制；ChatGPT-4的稳定性提示其依赖静态知识库。值得注意的是，Gemini在法规伦理学科（70%→90%）的突破性表现，为LLMs在专业合规培训中的应用提供了新思路。

这一研究不仅为牙科教育者选择AI辅助工具提供了科学依据，更开创了LLMs动态评估范式。未来研究可结合多模态输入（如图像识别）进一步拓展应用场景，推动AI与专业医学教育的深度融合。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号