沙特阿拉伯比沙大学医学院多选题质量评估:三年经验揭示医学教育评估优化路径

【字体: 时间:2025年02月14日 来源:BMC Medical Education 2.7

编辑推荐:

  本研究针对医学教育中多选题(MCQs)质量评估的关键问题,比沙大学医学院团队通过3年追踪(2016-2019),采用项目分析(IA)评估210道试题的区分度指数(DI)、难度指数(DIF)及干扰项有效性(DE)。结果显示56.7%题目具有优秀区分度,70.2%干扰项功能良好,KR20可靠性达0.804-0.906,为优化医学教育评估体系提供实证依据。

  

在医学教育领域,评估工具的质量直接关系到人才培养的精准度。尽管多选题(MCQs)因其高效性成为医学考试的主力军,但劣质题目可能导致"高分低能"现象——这正是沙特阿拉伯比沙大学医学院(University of Bisha College of Medicine, UBCOM)研究人员试图破解的难题。当越来越多的医学院校依赖MCQs进行大规模考核时,如何确保每道题目都能准确区分学生的真实水平?这项发表在《BMC Medical Education》的研究给出了系统答案。

UBCOM的研究团队创新性地采用纵向研究设计,对2016-2019三个学年《疾病原理》(PRD)课程的210道期末考题展开全面"体检"。通过自动阅卷系统Apperson DataLink 3000 Test Scanner采集数据,他们建立了一套包含四项核心指标的评估体系:衡量考试一致性的KR20系数、反映题目区分能力的DI、表征难易程度的DIF,以及检测干扰项质量的DE指标。

研究结果显示,这些"医学考题"的体检报告令人欣慰又暗藏隐忧。在可靠性方面,三场考试的KR20系数(0.804-0.906)全部超过0.8的黄金标准,证明考试整体稳定性优异。题目区分度呈现"两极分化":56.7%的题目达到优秀等级(DI≥0.25),能清晰辨别学霸与学困生;但仍有22.4%的题目需要"回炉重造",其中8.6%甚至出现"反智"现象——差生正确率反而更高。难度分布则显示"中间高两头低":50.5%题目难度适中(DIF 30-70%),但37.6%过于简单(>70%),11.9%又偏难(<30%)。最有趣的发现来自干扰项分析——虽然70.2%的"错误选项"成功迷惑了考生,但近30%的干扰项形同虚设,特别是16.3%的题目在2016-17学年出现三个干扰项全部失效的极端情况。

技术方法上,研究采用标准化流程:1)基于考试蓝图的命题设计;2)电子阅卷系统自动采集答题数据;3)SPSS 25.0进行项目分析(IA);4)Pearson相关性检验DI、DIF、DE的关联性。样本来自UBCOM二年级医学生的期末考试成绩。

【Discrimination index (DI)】

数据分析揭示:优秀区分度题目占比逐年下降(63.7%→45%),而错误题目比例却从3.8%激增至16.7%。这种变化趋势提示新教师命题经验不足可能影响质量稳定性。

【Difficulty Index (DIF)】

2017-18学年表现最佳,64.3%题目难度适中;但2018-19学年出现明显波动,简单题目占比回升至33.3%。研究者指出这与课程改革同步,反映教学大纲调整对考核的影响。

【Distractor effectiveness】

功能干扰项比例从52.9%提升至78.3%,显示教师命题技能进步。但仍有8.6%题目存在三个干扰项同时失效的情况,这类题目多集中在临床推理题型。

这项历时三年的质量审计最终证实:通过系统化项目分析,能有效识别并修复有缺陷的评估工具。特别是DI与DE的显著相关性(P<0.05)表明,优化干扰项设计是提升题目区分度的关键。对于新兴医学院校UBCOM而言,这些发现不仅完善了其SPICES课程体系中的评估环节,更建立了"命题-施测-分析-改进"的质量闭环。该研究为全球医学教育者提供重要启示:在AI阅卷时代,只有持续监控MCQs的"代谢指标"(DI/DIF/DE),才能确保评估工具始终维持"健康状态",真正成为医学人才选拔的精准标尺。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号