编辑推荐:
为探究大语言模型(LLMs)在牙科入学考试(DAT)备考中的适用性,研究人员评估 16 种 LLMs 回答 DAT 样本问题的能力。结果显示不同模型表现各异,在文本任务和图像任务上各有优劣。该研究为 LLMs 在牙科教育中的应用提供重要参考。
在当今数字化时代,教育领域正经历着前所未有的变革,大语言模型(Large Language Models,LLMs)的出现为教育带来了新的可能性。它们被广泛应用于各个领域,在医疗教育方面,也展现出了如个性化学习、互动辅导等多种应用潜力。然而,在像牙科入学考试(Dental Admission Test,DAT)这样重要的高风险考试中,LLMs 的表现究竟如何,其能力边界在哪里,一直是教育者、学生和相关研究人员极为关注的问题。
DAT 作为众多牙科院校评估申请者的关键指标,其成绩与学生入学后的表现密切相关。但以往对于 LLMs 在 DAT 评估中的研究较少,这使得人们难以确定如何在 DAT 备考中有效利用 LLMs。为了解决这一问题,来自未知研究机构的研究人员开展了一项关于 “Benchmarking of Large Language Models for the Dental Admission Test” 的研究,该研究成果发表在《Health Data Science》杂志上。
在这项研究中,研究人员主要采用了以下关键技术方法:首先,从美国牙科协会获取公开的 DAT 样本测试题,该测试题包含自然科学(Natural Sciences,NS)、感知能力(Perceptual Ability,PA)、阅读理解(Reading Comprehension,RC)和定量推理(Quantitative Reasoning,QR)四个部分,共 247 道选择题。然后,研究人员选用了 16 种 LLMs 进行测试,包括通用模型(如 GPT - 3.5、GPT - 4 等)、领域特定微调模型(如 DentalGPT、MedGPT 等)和开源模型(如 Llama2 系列、Llama3 系列)。对于文本类问题,直接让模型回答;对于图像类问题,因部分模型无法直接处理,研究人员将图像截图后转发给具备图像处理能力的模型。最后,研究人员通过定量分析计算模型答题的正确率,还邀请两位牙科或口腔健康相关学科的专家,采用分层随机抽样的方式选取 50 道题的模型回答进行定性的主题分析。
研究结果如下:
- 16 种 LLMs 的测试表现:在文本类问题上,常用的 LLMs 如 GPT - 4o、GPT - 3.5、Bard、Claude 和 GPT - o1 在 NS 和 RC 部分表现出色,准确率普遍超过 80%。其中,GPT - 4o 在所有文本类部分表现最佳,NS、RC 和 QR 部分的准确率分别达到 100%、100% 和 95%;GPT - o1 在 NS 和 RC 部分也取得了满分的好成绩,QR 部分准确率为 95%。开源模型 Llama3 - 70B 表现也较为突出,NS 部分准确率为 89%,RC 部分达到 100%。而领域特定微调模型如 DentalGPT、MedGPT 和 BioGPT 在 NS 部分表现尚可,但在 RC 和 QR 部分表现较弱。在图像类问题上,所有模型表现都较为有限。例如,在 PA 部分,GPT - 4o、Bard、Claude 和 GPT - o1 的准确率分别仅为 24%、19%、36% 和 21%,领域特定微调模型的表现也不理想,开源的 Llama 系列模型因架构限制未参与此类测试。
- 16 种 LLMs 在模型生成文本方面的表现:专家通过主题分析,确定了 LLMs 回答问题时出现错误的七个主题,包括批判性思维、逐步分析、知识转化为正确答案、复杂问题理解、幻觉、不必要的复杂性和排除过程。研究发现,LLMs 在回答需要批判性思维和逐步分析的基础科学问题时表现较差,面对复杂问题时容易误解并给出错误答案,甚至会产生幻觉。例如,在化学酸碱反应问题中,模型未能正确运用批判性思维判断水在反应中的角色;在数学年龄计算问题中,模型虽然步骤正确,但后续计算错误。
- LLMs 在 DAT 备考中的潜力与局限:从布鲁姆分类法(Bloom’s Taxonomy)的角度来看,LLMs 在理解和回答文本类问题,尤其是涉及 RC 和事实性知识方面有一定潜力,可以用于解释和强化概念、提供练习题和针对性反馈,为学生创造更个性化的学习体验。然而,LLMs 在解决 QR 和 PA 问题上存在明显局限,它们在处理需要批判性思维、逻辑推理和逐步分析的问题时表现不佳,且存在产生错误信息和不必要复杂性的情况,这可能会误导学生。
研究结论和讨论部分指出,LLMs 在强化事实性知识和支持个性化学习方面具有一定潜力,但在需要高阶认知技能的任务中存在显著风险。不同类型的模型在性能上存在差异,商业模型在文本任务中表现突出,微调的领域特定模型和开源模型各有优劣。同时,研究还发现 LLMs 在视觉空间推理任务中存在普遍困难,这为未来模型的改进指明了方向。未来可通过针对性的微调、整合多模态能力、减少幻觉以及利用生物医学知识图谱(Biomedical Knowledge Graphs,BKGs)和检索增强生成(Retrieval - Augmented Generation,RAG)系统等方法提升 LLMs 在教育领域的应用效果。此外,还需要开展纵向研究,评估基于 LLMs 的工具对学习者长期学习成果的影响。
这项研究的重要意义在于,它为 LLMs 在 DAT 备考中的应用提供了全面而深入的评估,让人们清晰地认识到 LLMs 的优势与不足。这不仅有助于教育者、学生和相关机构在 DAT 备考中合理使用 LLMs,也为后续研究人员改进和优化 LLMs 提供了重要的参考依据,推动了 LLMs 在医疗教育领域的进一步发展。