基于确定性的标记（CBM）与正确答案数量评分（NRS）在多项选择题（MCQ）评估中的比较：一项针对二年级医学生的前瞻性队列研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Advances in Medical Education and Practice》：Comparison of Certainty-Based Marking (CBM) and Number Right Scoring (NRS) in Multiple-Choice Question (MCQ) Assessments: A Prospective Cohort Study of Second-Year Medical Students

【字体：大中小】 时间：2025年11月22日 来源：Advances in Medical Education and Practice 1.7

编辑推荐：

　　本研究将确定性评分（CBM）引入医学教育中的多选题考试，对比传统评分（NRS）后发现CBM平均分显著更低（P<0.001），通过率差异显著（34/141 NRS失败者通过CBM），学生反馈认可CBM的公平性和减少猜测的优势，但需进一步验证其广泛适用性。

　　本研究聚焦于医学教育中一种新型的评估方法——基于确定性的评分（Certainty-Based Marking, CBM）在多项选择题（Multiple-Choice Questions, MCQ）评估中的应用。随着医学教育对深度决策能力的重视，传统多项选择题的评分方式——数量正确评分法（Number Right Scoring, NRS）——虽然广泛使用，但其在区分学生实际能力方面存在一定的局限性。研究发现，CBM能够提供更细致的评估维度，通过要求学生在作答时报告其对答案的确定程度，从而在评分过程中纳入对知识掌握程度的判断。这种方法被认为有助于提升评估的有效性，减少猜测和部分知识带来的干扰，使考试结果更真实地反映学生的实际水平。

研究对象为第二年医学专业的学生，他们参与了10次不同形式的CBM-MCQ考试。在每次考试中，学生均需完成多项选择题，并在每道题后报告其对答案的确定程度。考试题目均来自预防医学与社区医学课程，且每个考试的题目数量不同，每道题均设置四个选项，其中只有一个正确。为了保证考试的公平性和准确性，研究团队设计了一种新的评分矩阵，用于计算CBM分数。与传统的NRS评分方式相比，CBM的评分机制更加注重学生对答案的自信程度，从而在一定程度上避免了因猜测或部分知识而影响成绩的情况。此外，为确保数据的匿名性和安全性，所有学生的个人信息在分析前均被处理，且仅使用考试结果进行统计分析。

研究结果显示，CBM评分与NRS评分存在显著差异。总体而言，CBM评分平均低于NRS评分0.82分（P<0.001），表明在评估学生知识掌握程度时，CBM方法对学生的成绩产生了更严格的要求。此外，CBM评分导致的通过率与失败率也发生了显著变化。在10次考试中，有794名学生通过了NRS评估，但在CBM评估中，仅有85名学生通过，而原本在NRS评估中失败的141名学生中有34人通过了CBM评估。这种显著的通过率变化说明CBM评分方式能够更准确地识别那些虽然知识掌握程度不足，但表现出较高确定性的学生，以及那些知识掌握良好但缺乏自信的学生。值得注意的是，这种差异在五次考试中表现得尤为明显（P<0.05），表明CBM评分方式在某些考试中具有更强的区分能力。

除了通过率的变化，CBM评分还对学生的成绩等级产生了影响。在传统的NRS评分体系中，学生被分为四个等级：A（≥17分）、B（14-17分）、C（10-14分）、D（<10分）。CBM评分结果中，A等级的学生比例从8.4%下降至4.7%，而D等级的学生比例则从15.1%上升至20.5%。这表明CBM评分方式在一定程度上对高分学生的成绩产生了更严格的筛选，同时对低分学生的成绩进行了更宽泛的界定。这一趋势进一步支持了CBM在评估学生真实能力方面的潜力，尤其是在区分那些依靠猜测获得高分的学生和那些具备真实知识但缺乏自信的学生之间。

为了进一步验证CBM的评估效果，研究团队还设计了一项学生调查，以了解他们对CBM方法的态度和看法。调查结果表明，大多数学生对CBM方法持积极态度，认为其有助于更准确地评估他们的知识水平，并且能够更好地反映他们在考试中的真实能力。然而，也有部分学生认为CBM方法过于严格，增加了考试的心理负担，特别是在选择确定性等级时需要额外的时间和精力。此外，一些学生担心如果他们对自己的答案过于自信，即使答案错误，也可能导致分数下降，从而影响考试结果。尽管如此，随着对CBM方法的进一步熟悉和实践，这些担忧在一定程度上得到了缓解，说明CBM方法在实施过程中具有一定的适应性和可行性。

从统计学角度来看，CBM评分与NRS评分之间存在高度正相关（总体相关系数r=0.885，单次考试相关系数范围为0.522-0.913），表明两种评分方式在一定程度上能够相互印证。然而，这种相关性并未完全消除两者之间的差异，说明CBM评分方式在某些方面能够提供额外的区分信息。此外，Kappa统计量用于衡量两种评分方式之间的一致性，结果显示总体一致性为56.7%，而个别考试之间的一致性存在波动。例如，考试二和考试五的Kappa值为负数，表明这两种考试中CBM评分与NRS评分之间的一致性较低，这可能与考试内容、学生群体的多样性以及评分矩阵的设计有关。

CBM方法的实施对医学教育具有重要意义。首先，它能够更全面地评估学生的知识掌握程度和自我认知能力，从而帮助教育者更好地了解学生的学习情况。其次，CBM方法有助于减少考试中的猜测行为，使考试结果更真实地反映学生的实际水平。然而，这种方法也存在一定的挑战。例如，CBM评分要求学生在作答时报告其确定性，这可能会影响他们的答题速度和效率，尤其是在考试时间有限的情况下。此外，CBM评分矩阵的设计需要经过充分的验证，以确保其公平性和有效性。目前的研究表明，CBM评分矩阵在某些考试中表现出良好的区分能力，但在其他考试中则需要进一步优化。

尽管CBM方法在某些方面表现出优势，但其推广仍面临一定的阻力。一方面，部分学生认为CBM方法过于严格，增加了考试的心理压力；另一方面，教育机构需要投入更多资源来培训学生如何正确使用CBM评分方式，并确保评分矩阵的透明性和一致性。此外，CBM方法的实施还需要考虑考试的时间安排和评分流程的优化，以避免因额外的确定性评估而影响学生的考试体验。研究团队在设计考试时已经考虑了这些因素，例如在每道题后增加15秒用于报告确定性，以确保学生有足够的时间进行思考和选择。

总体而言，CBM方法为医学教育提供了一种新的评估工具，能够在一定程度上提升考试的公平性和有效性。然而，其在实际应用中仍需进一步研究和验证。例如，未来的研究可以探讨CBM方法在不同类型的考试中的适用性，如实践考试、结构化书面评估等。此外，CBM方法的推广还需要结合其他评估手段，如客观结构化临床考试（Objective Structured Clinical Examination, OSCE）或标准化进度测试（Standardized Progress Test, SPT），以全面评估学生的综合能力。最后，教育机构需要根据自身的特点和需求，灵活调整CBM评分矩阵的设计和实施方式，以确保其能够真正发挥评估的作用，而不是成为学生负担的一部分。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号