
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ChatGPT-4、Gemini与DeepSeek-V3在台湾牙科技师认证考试中的表现及三周自我学习能力评估
【字体: 大 中 小 】 时间:2025年07月22日 来源:Journal of Dental Sciences 3.4
编辑推荐:
研究人员针对大型语言模型(LLMs)在牙科教育中的潜力,评估了ChatGPT-4、Gemini和DeepSeek-V3在台湾牙科技师认证考试(TNDTLE)194道选择题中的表现及自我学习能力。结果显示,DeepSeek-V3初始准确率最高(69.6%),而Gemini在三周内表现出显著自我学习能力(AR提升至67.0%),ChatGPT-4则稳定性强但学习能力有限。该研究为LLMs在牙科专业教育中的应用提供了实证依据。
在人工智能技术飞速发展的今天,大型语言模型(LLMs)如ChatGPT-4、Gemini和DeepSeek-V3已在多个领域展现出强大的潜力。然而,这些模型在专业医学教育,尤其是牙科领域的应用效果尚不明确。台湾牙科技师认证考试(TNDTLE)作为专业资格认证的重要标准,其题目涵盖口腔解剖学、修复技术等9个学科,是评估LLMs专业能力的理想工具。研究人员开展了一项开创性研究,首次系统评估了三大LLMs在TNDTLE中的表现及自我学习能力,相关成果发表在《Journal of Dental Sciences》上。
研究采用194道纯文本选择题,分四个时间点(初始、1周、2周、3周后)测试三大模型的准确率(AR)。通过卡方检验分析AR变化,并比较不同学科(4门基础学科与5门临床学科)的表现差异。
初始准确率与时间变化
DeepSeek-V3以69.6%的初始AR领先(P<0.001),但三周内未显著提升;Gemini初始AR为57.2%,1周后显著提高至67.0%(P=0.028),展现短期自我学习能力;ChatGPT-4初始AR仅52.1%,且波动微小(56.2%→52.1%)。
学科差异
基础学科AR普遍高于临床学科,但差异无统计学意义。例如,DeepSeek-V3在口腔解剖学(初始90%)和儿科牙科技术(77.8%)表现突出;Gemini在牙科材料科学(47.4%→63.2%)和活动义齿技术(50%→75%)进步显著。
讨论与意义
该研究揭示了LLMs在牙科教育中的差异化表现:DeepSeek-V3凭借专业训练数据实现高初始AR,但缺乏自适应能力;Gemini的短期学习能力可能源于后台数据更新机制;ChatGPT-4的稳定性提示其依赖静态知识库。值得注意的是,Gemini在法规伦理学科(70%→90%)的突破性表现,为LLMs在专业合规培训中的应用提供了新思路。
这一研究不仅为牙科教育者选择AI辅助工具提供了科学依据,更开创了LLMs动态评估范式。未来研究可结合多模态输入(如图像识别)进一步拓展应用场景,推动AI与专业医学教育的深度融合。
生物通微信公众号
知名企业招聘