编辑推荐:
为评估 AI 聊天机器人在口腔修复学教育中的表现,研究人员用 DSRE 试题测试,发现 Copilot 准确率最高但仍有局限。
在当今科技飞速发展的时代,人工智能(AI)的浪潮席卷了各个领域,医学和牙科教育也不例外。大语言模型(LLMs)凭借其强大的自然语言处理和响应生成能力,逐渐走进人们的视野。它们能理解复杂问题,给出基于证据的回答,这对于学生学习和专业人员临床决策都很有帮助,在备考和快速获取信息方面也备受青睐。然而,这些 AI 模型并非完美无缺。在医疗领域,它们存在幻觉、信息过时、准确性不一致等问题,尤其是在牙科专业的应用中,这些问题更为凸显。例如,在波兰医学 - 牙科验证考试中,AI 模型在口腔修复学方面可能就缺乏足够的数据支持,导致表现不尽如人意。
为了深入探究 AI 聊天机器人在口腔修复学教育中的实际表现,来自土耳其埃尔西耶斯大学牙科学院口腔修复学系以及私人诊所 Ortoperio 口腔和牙科健康综合诊所的研究人员 Ravza Eraslan、Mustafa Ayata 等人开展了一项重要研究。该研究成果发表在《BMC Medical Education》上。
研究人员为开展此项研究,从 2012 年以来土耳其牙科专业住院医师考试(Dentistry Specialization Residency Examination,DSRE)的官网获取了相关试题。这些试题原本有 130 道关于口腔修复学的题目,但由于其中 4 道包含图片,研究人员将其排除,最终选取了 126 道题目进行研究。他们把这些题目按照内容分为 7 个子主题,分别是牙科形态学、材料科学、固定义齿、可摘局部义齿、全口义齿、咬合 / 颞下颌关节(Occlusion/Temporomandibular Joint,TMJ)和牙种植学。之后,研究人员将这些题目翻译成英文,在 7 天内分别向 5 个聊天机器人(ChatGPT-3.5、Gemini Advanced、Claude Pro、Microsoft Copilot 和 Perplexity)提问,并记录它们的回答是否正确,通过计算正确回答的百分比来评估 AI 模型的表现。同时,研究人员还对回答错误的问题进行了分组和分类,运用 Pearson 卡方检验、Fisher 精确检验和 z 检验等统计学方法,分析不同聊天机器人在不同子主题上的回答准确率差异。
研究结果显示:
- 整体准确率差异:不同 AI 聊天机器人的整体准确率存在显著差异。Copilot 的准确率最高,达到 73%(126 道题中答对 92 道),表现明显优于 Perplexity(54.8%,答对 69 道),二者差异具有统计学意义(P=0.035)。ChatGPT-3.5 的准确率为 61.1%(答对 77 道),Gemini 的准确率为 63.5%(答对 80 道),Claude Pro 的准确率为 57.9%(答对 73 道)。这表明在这 5 个聊天机器人中,Copilot 在回答口腔修复学问题方面具有一定优势,但也说明不同模型之间的表现参差不齐。
- 子主题准确率差异:当按照子主题分析时,研究发现不同 AI 聊天机器人在各个子主题上的正确回答率并没有显著的统计学差异。然而,不同子主题的问题本身的正确回答率存在显著差异。其中,牙种植学相关问题的正确回答率最高,达到 75%;可摘局部义齿相关问题的正确回答率最低,仅为 50.8%。这说明 AI 模型在某些特定的口腔修复学子主题上的表现存在明显差异,可能与这些领域的知识复杂程度以及 AI 模型对相关知识的掌握程度有关。
- 错误回答分析:在对错误回答的进一步分析中,研究人员发现,所有 AI 模型都回答错误(Group 5)的问题,其错误回答的相似率高达 81.82%。而且,至少有一个 AI 给出错误答案的问题占总问题的 67.7%,所有 AI 同时答错的问题占 8.7%,所有 AI 同时答对的问题占 33.3%。这表明在某些问题上,AI 模型普遍存在困难,反映出它们在特定领域知识上的不足。
综合研究结论和讨论部分,该研究具有重要意义。一方面,研究结果表明 AI 模型在口腔修复学教育领域具有一定的潜力,例如 Copilot 较高的准确率显示出其作为教育支持工具的可能性。但另一方面,目前 AI 模型还存在诸多局限性,无法在口腔修复学的所有领域都成为可靠的教育或临床决策支持工具。不同模型在不同子主题上的表现差异,以及在特定领域知识上的不足,都提示在将 AI 应用于口腔修复学教育时,需要谨慎选择合适的模型,并进一步优化模型,以提高其在复杂和专业领域的知识传递能力。此外,该研究也为后续研究指明了方向,未来研究可以考虑使用更大、更多样化的数据集,对所有模型的高级版本进行评估,并探索更广泛的专业主题,从而更全面地评估 AI 模型在口腔修复学教育中的作用。
这项研究为 AI 在口腔修复学教育中的应用提供了有价值的参考,让人们更加清楚地认识到 AI 的优势与不足,有助于推动 AI 技术在牙科教育领域的合理应用和进一步发展。