AI 能否改写医学教育评估格局?——OSCE 中 AI 与人类评估的深度较量

【字体: 时间:2025年05月03日 来源:BMC Medical Education 2.7

编辑推荐:

  这篇研究聚焦医学教育中客观结构化临床考试(OSCE),对比人工智能(AI)与人类评估的一致性。发现 AI 在视觉技能评估有优势,但在听觉相关任务存局限。研究为 AI 用于医学教育评估提供依据,助力构建更高效公平的评估体系。

  

背景


在医学教育领域,客观结构化临床考试(OSCE)是评估医学生临床技能的重要手段,能让教育者在规定时间内评估学生的实践操作能力。然而,OSCE 存在成本高、资源需求大等问题,在师资有限的院校,学生可能无法参与这一关键评估,影响竞争公平性和学生质量。

随着人工智能(AI)技术的飞速发展,其在教育领域的应用日益广泛。多模态大语言模型(M-LLMs)可处理多种数据模态,能用于个性化教育、学生表现评估等。在医疗方面,M-LLMs 能分析医学图像、辅助诊断和制定治疗方案。但 AI 在教育应用中也面临一些质疑,如过度依赖、伦理边界和教学适用性等问题。

传统 OSCE 评估依赖人工,易出现不一致、有偏见且反馈不及时的情况。本研究旨在探讨 AI 与人类评估者在 OSCE 中评估医学生临床技能的一致性,具体研究问题包括:AI 多模态语言模型(ChatGPT-4o 和 Gemini Flash 1.5)与人类评估者评估的一致性是否存在显著差异;视觉、听觉及视听结合等感知类型如何影响 AI 与人类评估临床技能的一致性。

方法


本研究在土耳其一所国立大学开展,为横断面研究,选取 1 - 3 年级临床前医学生作为研究对象。在 2023 - 2024 学年末的 OSCE 中,对学生的肌肉注射、方结打结、基础生命支持和导尿四项临床技能进行评估。

研究数据来自 196 名自愿参与的学生,他们签署了知情同意书,同意在技能操作时被录像。各技能参与评估的学生人数不同,肌肉注射 43 人、方结打结 58 人、基础生命支持 47 人、导尿 48 人 。

数据收集工具为学生在 OSCE 中技能操作的视频录像,评估使用大学制定的标准化检查表。该检查表自 2018 年起使用,每年根据学生和评估者反馈更新,以确保有效性和可靠性。

研究共有 5 位评估者,包括 1 名在 OSCE 现场实时评估学生并将分数计入年终成绩的评估者,2 名在考试后根据视频录像评估的专家医生,以及 2 个基于 AI 的评估系统 ChatGPT-4o 和 Gemini Flash 1.5,它们也依据视频录像进行评估。

在评估前,学生被告知研究相关信息并自愿参与。OSCE 作为常规学年末评估正常进行,学生技能操作时,使用固定摄像头从实时评估者视角录制视频。

AI 评估视频录像的步骤如下:选择能处理视频文件共享的 LLM 模型 ChatGPT-4o 和 Gemini Flash 1.5;视频录制分辨率为 1920×1080,帧率 30FPS,视角和距离与实时评估者一致;使用未经训练的模型,不进行微调且不提供评估结果反馈;仅向 AI 模型提供评估表和评分系统,要求其据此评估视频;使用相同的土耳其语提示,如评估导尿技能时,详细说明评估标准和评分方式;后续评估不同学生时,仅输入新提示告知上传新视频;评估记录可通过特定链接查看截图。

数据分析采用多种方法,通过 Krippendorff’s Alpha 和 Fleiss Kappa 系数分析评估者间的信度,Cohen’s kappa 系数用于衡量两个评估者间的一致性,Fleiss Kappa 系数可衡量多个评估者间的一致性。同时,将所有评估者的评估结果转化为学生的总分,进行多种比较分析,如 One Way ANOVA 用于比较不同评估者对学生技能的评估,Independent Sample T-Test 用于比较人类评估者和 AI 评估者两组的评估结果。此外,还进行 Bland-Altman 分析,以评估两种测量方法的一致性,将三位人类评估者的平均评估作为 “金标准”,与 AI 模型评估进行比较。本研究获得了相关伦理委员会的批准。

结果


在肌肉注射技能评估中,Krippendorff’s Alpha 和 Fleiss’ Kappa 系数显示,5 位评估者在 15 项评估标准上未达成完全一致。人类评估者给分普遍低于 AI 评估者,且分数标准差更大,说明人类评估者评分差异更大。经比较分析,人类评估者总分显著低于 AI 评估者(p<0.05)。

方结打结技能评估结果类似,评估者间未达成完全一致。人类评估者评分低于 AI 评估者,且分数更不稳定。同样,人类评估者总分显著低于 AI 评估者(p<0.05)。

基础生命支持技能评估中,评估者间一致性仍未完全达成。人类评估者评分显著低于 AI 评估者(p<0.05) 。

导尿技能评估时,评估者间也未实现完全一致。不同评估者评分存在差异,其中一位人类视频评估者评分最低且方差大,Gemini Flash 1.5 在 AI 评估者中方差较大。部分人类评估者得分显著高于 AI 评估者(p<0.05)。

综合分析发现,AI 模型总体上倾向于给出比人类评估者更高的总分,如方结打结技能中偏差最大。视觉类评估标准下,AI 与人类评分更接近;听觉类标准则偏差较大,如在涉及口头确认隐私等任务中。在一致性界限(LOA)方面,多数数据点在可接受范围内,但在精细运动技能或精确言语反应任务中存在异常值。Gemini Flash 1.5 在视觉任务中的 LOA 范围更窄,一致性更稳定,但在复杂任务中,两种 AI 模型都存在变异性和偏差较大的问题。

讨论


本研究深入探讨了 AI 在医学教育 OSCE 评估中的作用。结果显示,AI 评估者(ChatGPT-4o 和 Gemini Flash 1.5)评分普遍高于人类评估者,且在视觉感知任务中的一致性高于涉及听觉或视听结合的任务。这表明 AI 在视觉主导技能评估中有优势,但在评估依赖听觉反馈或人际沟通的步骤时存在局限。

例如,在简单视觉任务中,AI 表现出色,但在需要听觉输入的任务,如口头确认患者隐私时,AI 系统难以准确评估。这可能是因为 AI 模型缺乏听觉特定训练数据或实时情境理解能力。未来 AI 系统应更好地整合多模态输入,同时,使用训练后的模型可能会得到更好的评估结果,后续研究可对此进行探索。

本研究结果与先前研究一致,证实了 AI 在图像评估方面的优势,也揭示了其在处理复杂、多模态任务时的不足。为解决这些问题,可采用混合评估模型,结合 AI 和人类评估的优势,减少评估者偏差,提供客观反馈,用于医学训练中的指导和同伴教育。

不过,本研究存在一定局限性。样本量可能无法涵盖不同人群的临床技能表现差异,影响研究结果的普遍性。而且仅使用了两种 AI 系统,不同平台可能有不同的准确性和一致性。此外,AI 应用还面临数据隐私和算法偏见等伦理问题,需要多学科协作解决。

尽管如此,本研究对医学教育仍具有重要意义。将 AI 融入 OSCE 可使评估更标准化,减少评估者间的不一致性,提高评估可靠性。AI 驱动的反馈系统还能为学生提供针对性的技能发展建议。

结论


本研究全面分析了 AI 系统在医学教育 OSCE 评估中的潜力。发现 AI 评估者在四项临床技能评估中倾向于给出更高且更一致的分数,在视觉任务中与人类评估的一致性较强,但在听觉相关任务中差异明显。

目前 AI 模型可作为临床技能评估的辅助工具,但还需进一步优化,以确保与人类评估标准一致,特别是在评估依赖沟通和听觉的步骤时。未来研究应探索将 AI 与先进的多模态学习系统结合,开展纵向研究评估 AI 对长期技能保留和临床结果的影响,制定 AI 在医学教育中应用的伦理准则。同时,应开发和测试训练后的 AI 模型,探索其在不同临床情境中的应用,推动医学教育评估体系向更标准化、高效和公平的方向发展,提升未来医疗专业人员的培训质量和实践能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号