沙特阿拉伯比沙大学医学院多选题质量评估：三年经验揭示医学教育评估优化路径

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年02月14日 来源：BMC Medical Education 2.7

编辑推荐：

　　本研究针对医学教育中多选题(MCQs)质量评估的关键问题，比沙大学医学院团队通过3年追踪(2016-2019)，采用项目分析(IA)评估210道试题的区分度指数(DI)、难度指数(DIF)及干扰项有效性(DE)。结果显示56.7%题目具有优秀区分度，70.2%干扰项功能良好，KR20可靠性达0.804-0.906，为优化医学教育评估体系提供实证依据。

在医学教育领域，评估工具的质量直接关系到人才培养的精准度。尽管多选题(MCQs)因其高效性成为医学考试的主力军，但劣质题目可能导致"高分低能"现象——这正是沙特阿拉伯比沙大学医学院(University of Bisha College of Medicine, UBCOM)研究人员试图破解的难题。当越来越多的医学院校依赖MCQs进行大规模考核时，如何确保每道题目都能准确区分学生的真实水平？这项发表在《BMC Medical Education》的研究给出了系统答案。

UBCOM的研究团队创新性地采用纵向研究设计，对2016-2019三个学年《疾病原理》(PRD)课程的210道期末考题展开全面"体检"。通过自动阅卷系统Apperson DataLink 3000 Test Scanner采集数据，他们建立了一套包含四项核心指标的评估体系：衡量考试一致性的KR20系数、反映题目区分能力的DI、表征难易程度的DIF，以及检测干扰项质量的DE指标。

研究结果显示，这些"医学考题"的体检报告令人欣慰又暗藏隐忧。在可靠性方面，三场考试的KR20系数(0.804-0.906)全部超过0.8的黄金标准，证明考试整体稳定性优异。题目区分度呈现"两极分化"：56.7%的题目达到优秀等级(DI≥0.25)，能清晰辨别学霸与学困生；但仍有22.4%的题目需要"回炉重造"，其中8.6%甚至出现"反智"现象——差生正确率反而更高。难度分布则显示"中间高两头低"：50.5%题目难度适中(DIF 30-70%)，但37.6%过于简单(>70%)，11.9%又偏难(<30%)。最有趣的发现来自干扰项分析——虽然70.2%的"错误选项"成功迷惑了考生，但近30%的干扰项形同虚设，特别是16.3%的题目在2016-17学年出现三个干扰项全部失效的极端情况。

技术方法上，研究采用标准化流程：1)基于考试蓝图的命题设计；2)电子阅卷系统自动采集答题数据；3)SPSS 25.0进行项目分析(IA)；4)Pearson相关性检验DI、DIF、DE的关联性。样本来自UBCOM二年级医学生的期末考试成绩。

【Discrimination index (DI)】

数据分析揭示：优秀区分度题目占比逐年下降(63.7%→45%)，而错误题目比例却从3.8%激增至16.7%。这种变化趋势提示新教师命题经验不足可能影响质量稳定性。

【Difficulty Index (DIF)】

2017-18学年表现最佳，64.3%题目难度适中；但2018-19学年出现明显波动，简单题目占比回升至33.3%。研究者指出这与课程改革同步，反映教学大纲调整对考核的影响。

【Distractor effectiveness】

功能干扰项比例从52.9%提升至78.3%，显示教师命题技能进步。但仍有8.6%题目存在三个干扰项同时失效的情况，这类题目多集中在临床推理题型。

这项历时三年的质量审计最终证实：通过系统化项目分析，能有效识别并修复有缺陷的评估工具。特别是DI与DE的显著相关性(P<0.05)表明，优化干扰项设计是提升题目区分度的关键。对于新兴医学院校UBCOM而言，这些发现不仅完善了其SPICES课程体系中的评估环节，更建立了"命题-施测-分析-改进"的质量闭环。该研究为全球医学教育者提供重要启示：在AI阅卷时代，只有持续监控MCQs的"代谢指标"(DI/DIF/DE)，才能确保评估工具始终维持"健康状态"，真正成为医学人才选拔的精准标尺。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号