编辑推荐:
法国将国家客观结构化临床考试(OSCE)作为医学生进入研究生教育项目的前提条件,但 OSCE 分数的可靠性和推广性未充分研究。研究人员运用概化(G-)理论开展试点研究,发现通用技能和整体表现评分可靠性更高,该研究为优化 OSCE 评分可靠性提供策略1215。
在医学教育领域,客观结构化临床考试(Objective Structured Clinical Examination,OSCE)是评估学生临床能力的重要手段。它通过标准化的考核流程,让学生在多个模拟临床场景中展示自己的技能和知识。然而,随着 OSCE 的广泛应用,一些问题逐渐暴露出来。内容特异性使得考试难以全面评估学生在不同领域的能力;考官评分的一致性难以保证,不同考官的严格程度差异会对学生成绩产生显著影响;而且组织考试的复杂性也为考试的顺利开展带来挑战。这些问题限制了 OSCE 评分的有效性、可靠性和推广性,使得人们对 OSCE 分数能否真实反映学生的临床能力产生质疑
34。
在法国,OSCE 考试的重要性日益凸显,它已成为医学生进入认可的研究生医学教育项目的必备条件。但目前对于 OSCE 考试中不同评分亚单位对考官评分的影响尚未得到充分探索,这无疑给考试质量的提升带来了阻碍。为了解决这些问题,来自法国洛林大学南希医学院(Nancy Medical School, University of Lorraine)的研究人员开展了一项极具意义的研究。他们运用概化理论(Generalizability Theory,G - 理论)对 OSCE 考试进行深入分析,旨在找出影响学生分数的误差方差来源,进而优化考试质量56。
研究人员选取了 73 名六年级本科医学生作为研究对象,这些学生参加了 2023 学年末的 OSCE 补考。考试设置了 3 个考站,由 24 对考官进行评估。每个考站从临床技能、通用技能和整体表现三个方面对学生进行打分,分别采用二分法任务特定清单、行为锚定量表和整体表现量表进行评分。在统计分析阶段,研究人员运用了多种方法。描述性统计用于呈现考试成绩的基本特征;概化研究则通过方差成分分析,确定了学生、考站、考官以及他们之间的交互作用等因素对评分的影响,并计算了概化系数(Generalizability coefficients,G - 系数)来评估评分的可靠性;决策研究基于概化研究结果,进一步计算可靠性估计值789。
研究结果令人眼前一亮。从整体考试成绩来看,临床技能平均得分 61.79 ± 19.07(占总分百分比),通用技能为 43.38 ± 19.07,整体表现为 1.48 ± 0.91。不同考官之间的评分差异并不显著,整体通过率为 74%,所有考站的可靠性系数(Cronbach’s alpha)为 0.66。在 G - 研究结果方面,三因素模型中,临床技能评分的 G - 系数为 0.59,通用技能评分的 G - 系数高达 0.93,整体表现评分的 G - 系数为 0.75。这表明通用技能和整体表现评分的可靠性明显高于临床技能评分。进一步分析发现,临床技能评分的方差主要来源于考站(22.9%)和考官(14.4%);通用技能评分的方差主要源于学生(17.4%)和人 - 站 - 考官交互及残差误差(73.9%);整体表现评分的方差则主要由人 - 站 - 考官交互及残差误差(66.7%)构成101113。
基于这些结果,研究人员得出结论:在评估学生能力方面,通用技能和整体表现的评分优于基于清单的临床技能评分。较高的 G - 系数意味着这些评分能更可靠地反映学生的水平。这一研究不仅为法国医学院优化 OSCE 考试提供了有力依据,也为其他教学机构提供了宝贵经验。它让人们认识到,通过 G - 理论分析可以深入了解考试中的误差来源,从而有针对性地改进考试设计,提高考试质量15。
在研究方法上,研究人员主要运用了概化理论进行数据分析。他们对学生的原始分数采用部分交叉随机效应设计,纳入学生、考站和考官三个因素进行方差成分分析。同时,使用最小范数二次无偏估计(MINQUE)和限制最大似然估计(REML)方法处理不平衡数据集,并通过重新分析验证结果的可靠性812。
总的来说,这项研究在医学教育领域具有重要意义。它揭示了 OSCE 考试中不同评分维度的可靠性差异,为后续优化考试提供了方向。例如,可以通过增加考站数量、优化评分量表等方式提高临床技能评分的可靠性。同时,研究结果也提醒教育者在设计和实施 OSCE 考试时,要充分考虑各种误差来源,以确保考试结果能真实反映学生的临床能力,为医学教育质量的提升奠定坚实基础1416。