AI语言模型在牙科标准化多选题测试中的准确性与一致性比较研究
《BMC Medical Education》:Comparison of accuracy and consistency of AI Language models when answering standardised dental MCQs
【字体:
大
中
小
】
时间:2025年10月29日
来源:BMC Medical Education 3.2
编辑推荐:
本研究针对人工智能(AI)语言模型在牙科教育评估中的准确性与可靠性问题,系统比较了ChatGPT-4、Grok XI、Gemini、Qwen 2.5和DeepSeek-V3五款主流模型在150道牙科标准化多选题(MCQs)中的表现。结果显示,所有模型均具备较高准确率(86.7%~92.7%),其中ChatGPT-4、Grok XI和Gemini展现出优异的测试-再测一致性(Cohen's kappa>0.8)。研究表明AI模型可作为牙科教育的辅助工具,但需持续优化以提升临床应用的可靠性。
随着人工智能(AI)技术在全球范围内的迅猛发展,医疗教育和临床实践正迎来前所未有的变革。大型语言模型(Large Language Models, LLMs)如ChatGPT、Gemini等,凭借其强大的自然语言处理能力,已在医学知识评估、临床决策支持等方面展现出巨大潜力。然而,在专业性极强的牙科领域,这些模型能否提供准确、可靠的信息,仍缺乏系统性的验证。特别是在高风险场景如资格考试或临床咨询中,AI模型的错误回答可能导致误导性结论,这一问题在动态更新的牙科知识体系中尤为突出。
在此背景下,沙特阿拉伯的研究团队Abdullah F. Alshammari等人在《BMC Medical Education》上发表了一项开创性研究,旨在评估五款主流AI语言模型(ChatGPT-4、Grok XI、Gemini、Qwen 2.5和DeepSeek-V3)在牙科标准化多选题(Multiple-Choice Questions, MCQs)中的表现。研究聚焦于两大核心指标:准确性(即模型答案与标准答案的一致性)和一致性(即模型在不同时间点对同一问题的回答稳定性)。这一研究不仅呼应了沙特“2030愿景”中推动医疗教育数字化转型的国家战略,也为AI在牙科领域的合理应用提供了关键证据。
为保障评估的严谨性,研究人员从权威牙科教材(如《Dental Decks Part II》和《First Aid for the NBDE Part II》)中选取150道涵盖牙体牙髓病学、修复学、种植学等核心学科的多选题,排除需图像辅助的题目以控制变量。所有模型在相同环境下接受两轮测试(间隔10天),答案由两名牙科教师独立盲审,争议答案经协商后裁定。统计分析采用Cohen's kappa评估模型内部一致性,McNemar's检验比较轮次间差异,并计算模型间答案重合度。
- 1.总体性能:五款模型均表现出色,准确率介于86.7%~92.7%。ChatGPT-4在两轮测试中均以91.3%的准确率领先,Grok XI次之(90.7%~92.7%),Qwen 2.5和Gemini稳定在89.3%左右,DeepSeek-V3略有波动(86.7%~88.7%)。
- 2.一致性分析:ChatGPT-4、Grok XI和Gemini的kappa值均高于0.8,显示“极强一致性”,而Qwen 2.5(kappa=0.65)和DeepSeek-V3(kappa=0.735)的答案稳定性相对较低。McNemar's检验证实前三款模型轮次间无显著差异(p>0.05)。
- 3.模型间共识:ChatGPT-4与Grok XI的答案重合度最高(135题一致),但各模型对部分题目的判断存在分歧。例如,Grok XI在4道题目上纠正了ChatGPT-4的错误,而DeepSeek-V3与Gemini在13道题目上同时答错。统计分析表明模型间差异未达显著水平(p>0.05)。
本研究证实,主流AI语言模型能够以较高准确率应对牙科标准化知识评估,其中ChatGPT-4、Grok XI和Gemini更兼具出色的时间稳定性。这一结果支持将AI整合至牙科教育中,例如作为学生自主学习的即时反馈工具或教师编写试题的辅助系统。然而,模型在复杂临床推理(如影像诊断或个体化治疗规划)中的局限性仍待突破。研究者强调,AI当前应定位为“辅助角色”,而非替代专业判断。未来需持续追踪模型迭代效果,并拓展其对开放式问题、多模态数据的处理能力,以推动AI在牙科教育与实践中的安全、精准应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号