结构化口试在医学教育中的价值:基于纯音测听和鼻阻力测定的实证研究

《HNO》:Kompetenzorientiertes Prüfen: die strukturierte mündliche Prüfung

【字体: 时间:2025年11月28日 来源:HNO 1.3

编辑推荐:

  为解决传统口试可靠性低、主观性强的问题,本研究以纯音测听(PTA)和鼻阻力测定(RMM)为例,开发了结构化口试(SMP)评估体系。研究证实SMP能有效测评NKLM二级能力(操作与推理知识),平均得分达25.20±1.94(PTA)和24.84±1.94(RMM),但存在考官评分差异(p=0.001),提示需加强考官校准。该研究为医学教育 competency-based assessment 提供了标准化工具。

  
在医学教育的漫长发展历程中,如何科学、公正地评估未来医生的能力始终是一个核心挑战。传统口试以其能够直接观察临床思维和决策过程而备受重视,但这类考试往往像一场没有标准答案的即兴演出,考官的个人偏好、提问方式甚至当天的情绪都可能影响最终评分。大量研究表明,非结构化口试存在可靠性低、评分主观性强、内容效度有限等固有缺陷,比如光环效应(对考生某一特质的印象影响对其他特质的判断)、对比效应(前后考生表现差异影响评分)等系统性偏差长期存在。随着医学教育范式向“能力导向”转变,德国借鉴国际经验如加拿大CanMEDS框架,推出了《国家能力导向医学学习目标目录》(NKLM),将医学能力分为递进的四个深度等级,其中第二级“操作与推理知识”成为教学与评估的重点。这一转变凸显了填补评估空白的重要性:书面考试擅长考察第一级的事实知识,客观结构化临床考试(OSCE)则针对第三级及以上的实际操作能力,而连接知识与实践之间的桥梁——即解释原理、临床推理和基于数据的判断能力——却缺乏有效的标准化评估工具。
正是在这一背景下,结构化口试(Structured Oral Examination, SMP)应运而生。它通过精心设计的蓝图(Blueprinting)、标准化的病例导引(Case Vignettes)、基于清单的评分(Checklist-based Scoring)以及多位考官独立评估等核心要素,旨在将口试从“艺术”转变为“科学”。尽管其理论优势在国际上得到认可,但在德语区尚缺乏扎实的实证数据支持其应用效果。为此,德累斯顿大学医院耳鼻咽喉科的研究团队在《HNO》杂志上发表了一项实证研究,以耳鼻喉科教学中两个经典检查项目——纯音测听(Reintonaudiometrie, RTA)和鼻阻力测定(Rhinomanometrie, RMM)为范例,深入探讨了SMP在现实教学环境中的可行性、评分质量及其挑战。
为了回答关于SMP可行性和有效性的核心问题,研究人员开展了一项基于课程教学的实证研究。该研究的关键技术方法主要包括:首先,基于NKLM二级能力目标开发SMP评估体系,包括定义五个评分类别(检查名称识别、操作步骤、结果描述、临床解读、鉴别诊断)及其详细的评分清单。其次,在为期一周的必修课块实习中,对第十学期的医学生进行教学(两个45分钟单元)后实施SMP评估。学生随机接受两项检查(其中一项为RTA或RMM)的考核,由8名考官按照1:1模式进行,每项检查耗时2-3分钟。最终,研究共分析了407次SMP数据(RTA: n=217; RMM: n=190)。数据分析采用了描述性统计、可靠性分析(Cronbach‘s α、项目-总分相关性)、探索性因子分析(主成分分析)以及单因素方差分析(ANOVA)来检验考官间的评分差异。
Stichprobe und Prüfungs-durchführung(样本与考试实施)
研究在课程框架内成功实施了SMP。2023和2024两届学生共完成了407次考试。考官在1:1设置下进行考核,最大总分为27分。两届学生的总体成绩无显著差异,表明考核结果具有稳定性。最终合并数据分析显示,RTA的平均总分为25.20±1.94,RMM为24.84±1.94(满分27分),表明学生对这些内容的掌握程度总体较高。
Prüfendeneffekte(考官效应)
这是本研究的关键发现之一。分析显示,在综合两个检查项目时,考官之间的评分存在显著差异(F=5.033; p<0.001)。当分开分析时,RMM未显示出显著考官效应(p=0.078),但RTA却存在显著差异(p=0.001)。事后检验发现,这种差异主要体现在个别考官之间(如P5与P1)。这表明,即使采用了结构化的清单,考官的个人评分尺度仍可能影响结果,特别是在评估像纯音测听图这样可能包含更多主观解读空间的项目时。这突出强调了考官培训和校准的极端重要性。
Psychometrische Kennwerte(心理测量学指标)
对SMP评分结构的质量分析显示,其内部一致性(Cronbach‘s α)相对较低(RTA: 0.54; RMM: 0.55),这在一定程度上可能是由于评分类别(如“操作”与“鉴别诊断”)测量的是相对独立的能力维度,而非单一构念。探索性因子分析提取出两个因子,共同解释了超过55%的方差。因子1主要由“名称识别”、“操作”和“描述”负载,代表了对基础知识和技能的掌握;因子2则由“解读”和“鉴别诊断”负载,代表了更高层次的临床推理能力。这一结构较好地对应了NKLM二级能力的内涵。
讨论与结论
本研究证实,结构化口试(SMP)是评估医学教育中“操作与推理知识”的一种可行且可靠的工具。它成功地填补了纯粹知识复述(NKLM一级)和实际操作能力(NKLM三级及以上)之间的课程空白。然而,研究所揭示的考官差异,特别是对于RTA的评分差异,是一个重要的警示。它表明,即使拥有最完善的评分清单,如果没有考官的充分理解和一致应用,评估的客观性仍会打折扣。因此,研究者强调,必须配套实施系统的考官培训,包括使用锚定案例(Ankerf?lle)、行为锚定评分量表以及采用多层面Rasch模型(Many-Facet Approach)等方法来量化和控制考官效应。
此外,研究中观察到的高分和有限的分数分布(即“天花板效应”),提示当前的SMP版本在区分度上尚有提升空间。未来可以通过引入更具挑战性的病例变体、更精细的评分标准(如加权部分分数)来增强其鉴别能力。研究者也将SMP与同级其他评估格式如脚本一致性测试(SKT)和关键特征考试(KFE)进行了比较,指出SMP在考察互动沟通和即时推理方面具有独特优势,而SKT和KFE在标准化和减少考官偏差方面更优。未来一种有前景的方向是将这些格式进行三角验证组合,从而更全面、稳健地评估二级能力。
最后,SMP的价值不仅限于终结性评价( summative assessment),其同样是一个强大的形成性评价( formative assessment)工具。通过SMP,教师可以清晰识别出学生在特定环节(如结果解读或鉴别诊断)的薄弱点,从而提供针对性的反馈,促进学习。
综上所述,这项发表于《HNO》的研究为能力导向的医学评估提供了有力的实证支持。它证明,通过结构化口试(SMP),可以系统、有效地评估医学生的临床推理和决策能力。尽管在考官校准、难度区分和效度验证方面仍需持续改进,但SMP无疑已成为推动医学教育从“知识记忆”向“能力培养”深刻转型的关键工具之一。随着标准化程度的不断提高和与其他评估方法的有机结合,SMP有望在医学教育和专科医师考核中发挥越来越重要的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号