AI 助力医学教育评估:生成高质量单选题的潜力与挑战
【字体:
大
中
小
】
时间:2025年02月26日
来源:BMC Medical Education 2.7
编辑推荐:
为解决医学教育中单选题(SBA)题库匮乏问题,圣安德鲁斯大学研究人员开展 AI 生成 SBA 问题研究,发现 AI 有潜力但需质量把控,对医学教育意义重大。
在医学教育的领域中,一直存在着一些棘手的难题。传统的学习方式往往侧重于被动接受知识,而研究表明,主动学习能显著提升学习者的考试表现,其中,检索练习是增强有意义学习的有效策略,特别是使用单选题(Single Best Answer,SBA)的检索练习,能极大地促进有目的的学习。SBA 以其客观性、高效性以及能广泛涵盖知识的特点备受关注,它不仅能培养批判性思维和临床决策能力,还能帮助学生将理论知识与实践相结合,为职业实践做好准备。然而,在医学教育实际操作中,SBA 的制作困难重重。
一方面,制作高质量的 SBA 需要遵循严格的准则,比如英国医学学校理事会评估联盟(Medical Schools Council Assessment Alliance,MSCAA)制定的指南,包括题干、引导问题、选项设置等多方面的规范。但即便遵循这些准则,要使题目难度适中,既能区分学生的知识掌握程度,又不至于过难打击学生积极性,也是一大挑战。另一方面,制作 SBA 耗时费力,需要医学知识、概念整合等多方面能力,而且还容易出现各种陷阱,例如让 “应试技巧型” 考生有机可乘,答对问题却并未真正掌握知识。此外,由于答案易被记忆,题目难以重复使用,这进一步加剧了 SBA 数量的匮乏。
雪上加霜的是,新冠疫情期间,多数医学院校采用线上开卷考试,大量 SBA 题目流入公共领域,可用题目数量锐减。在这样的背景下,研究人员迫切需要寻找新的解决方案来补充和丰富 SBA 题库,以满足医学教育的需求。此时,生成式人工智能(Generative Artificial Intelligence,AI)的兴起为解决这一难题带来了新的希望。
圣安德鲁斯大学的研究人员敏锐地捕捉到这一机遇,开展了一项旨在评估生成式 AI 在医学教育评估中应用潜力的研究。他们聚焦于 AI 能否有效解决评估题库枯竭问题,并增加学生形成性评估机会这一关键问题,展开了深入研究。该研究成果发表于BMC Medical Education期刊。
为了实现研究目标,研究人员采用了一系列关键技术方法。他们选用商业可用的 AI 大语言模型(Large Language Model,LLM)OpenAI GPT-4 来生成 SBA 问题。在生成过程中,研究人员精心设计提示词,融入 MSCAA 风格指南的精简指导以及苏格兰研究生医学课程(ScotGEM)的预期学习成果(Intended Learning Outcome,ILO),以此为 GPT-4 提供生成 SBA 的必要背景。生成的题目经过标准的质量保证筛选流程,由负责相关 ILO 的教员评估题目是否合适、是否符合要求及质量高低,最后由更广泛的教员小组进行审核。之后,研究人员选取部分 AI 生成和人工编写的题目,构建成两个包含 50 道题目的形成性 SBA 考试,让 ScotGEM 项目的一年级和二年级学生参与考试。考试通过 Speedwell eSystem 平台在线进行,学生在规定时间内用自己的设备完成闭卷考试。考试结束后,研究人员计算每道题的难度系数(Facility,F)和区分度指数(Discrimination Index,DI),并通过 t 检验对比 AI 生成题目和人工编写题目的 F 和 DI 得分,评估二者表现差异。
研究结果如下:
- 质量保证:在 GPT-4 生成的 220 道 SBA 题目中,22.2% 无需修改即可使用,46.8% 需进行小修改,30.9% 被拒绝。被拒原因主要包括超出学生知识范围、不符合格式要求、题目不合理以及其他如过于简单、重复或与 ILO 不匹配等问题。
- 难度系数:AI 生成题目和人工编写题目的难度系数无统计学显著差异,但描述性统计显示学生认为 AI 生成题目更简单。
- 区分度指数:二者区分度指数同样无统计学显著差异,但由于 AI 生成题目的难度系数略高,所以区分度稍弱。在 50 道人工编写题目中,33 道 DI>0.2,24 道 DI>0.3;50 道 AI 生成题目中,32 道 DI>0.2,12 道 DI>0.3。
研究结论和讨论部分指出,AI LLMs 有潜力生成符合最佳实践指南和特定 ILO 的 SBA 题目,但必须有严格的质量保证流程来确保剔除错误题目。尽管 AI 生成题目在一些方面与人工编写题目表现相近,但完全取代人工编写题目并不可行。不过,AI 技术可辅助人工,为题库快速补充和丰富资源,激发人工编写题目的新思路。同时,研究也存在一定局限性,如提示词中 ILO 可更具体、样本量可进一步扩大等。未来可通过改进方法,如使用更精确的 ILO、提供教学材料等,进一步优化 AI 生成题目的质量。并且,除 SBA 外,该技术在其他医学教学评估形式中也有应用潜力,值得进一步探索。
总的来说,这项研究为 AI 在医学教育评估中的应用奠定了基础,为后续研究指明了方向,有望推动医学教育与 AI 技术的深度融合,为医学教育的发展带来新的契机。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号