编辑推荐:
在模拟医学教育(SBME)中,领导人口统计学特征影响培训效果,AI 生成的数据却可能存在偏差。研究人员开展 “AI 与模拟医学教育及领导力中的包容性:全球多样性横断面评估” 研究,发现不同 AI 平台生成的模拟教师和实验室负责人画像差异显著,这对促进公平教育意义重大。
在医学教育的舞台上,模拟医学教育(Simulation - based medical education,SBME)已然成为培养医疗专业人才的关键一环。它为学习者提供了一个安全且可控的环境,让他们能够在其中磨练技能、提升决策能力,并进行反思性学习。想象一下,医学生们在模拟的手术室或病房场景中,与逼真的模拟病人互动,反复练习各种医疗操作,这不仅能增强他们的技术能力,还能培养他们的自我认知和人际交往能力。
然而,当前的医学教育领域正面临着一系列挑战。在多样性、公平性和包容性(DEAI)备受关注的今天,模拟医学教育中领导者的人口统计学特征,如年龄、性别、种族 / 民族以及医学专业等,对教育项目的设计和学习者的成果有着深远影响。不同背景的领导者会带来不同的视角和理念,进而影响模拟场景的设计、教学重点的确定,以及学习者的职业认同感和归属感。例如,缺乏多样性的领导团队可能会忽视某些文化背景下患者的特殊需求,导致教育内容无法全面覆盖多元文化的医疗场景,使得来自不同文化背景的学习者难以产生共鸣,无法充分发挥模拟教育的优势。
与此同时,人工智能(Artificial Intelligence,AI)技术正逐渐渗透到医疗教育领域,被广泛用于辅助决策、解决问题,甚至生成教育内容。但 AI 算法存在的偏差却如同隐藏在暗处的 “定时炸弹”。它可能会延续与性别、种族 / 民族和年龄相关的有害刻板印象,进一步加剧教育中的不公平现象。当 AI 被用于描绘模拟医学教育领导者的人口统计学特征时,这种偏差可能会导致对某些群体的错误呈现,强化教育中的排他性规范,让那些在领导岗位上代表性不足的群体更难获得发展机会。
为了深入探究这一问题,来自多个国家和机构的研究人员,包括瑞士伯尔尼大学医学教育研究所、日内瓦大学医院等机构的 Joana Berger - Estilita、Mia Gisselbaek 等人,开展了一项全球横断面研究。他们将目光聚焦于三个广泛使用的 AI 平台 ——ChatGPT、Gemini 和 Claude,旨在评估这些平台生成的模拟教师和模拟实验室负责人的人口统计学特征,从而揭示 AI 在模拟医学教育中的潜在偏差。该研究成果发表在《Advances in Simulation》上,为医学教育领域敲响了警钟,也为后续的改进和发展提供了重要依据。
在这项研究中,研究人员采用了多种关键技术方法。首先,他们设计了标准化的英语提示,向三个 AI 平台分别输入 “一张包含 100 次模拟教师年龄 / 性别 / 种族 / 医学专业的表格” 和 “一张包含 100 次模拟实验室负责人年龄 / 性别 / 种族 / 医学专业的表格”,以此获取 AI 生成的数据。随后,他们运用统计学方法,对连续变量(如年龄)进行方差分析(ANOVA),对分类变量(如性别、种族和专业偏好)进行卡方检验,并采用 Bonferroni 校正来减少多重分析带来的误差,确保研究结果的可靠性。
研究结果显示出不同 AI 平台之间存在显著差异。在年龄方面,对于模拟教师,ChatGPT 和 Claude 生成的输出结果比 Gemini 更年轻(41.4 岁、40.5 岁 vs 47.9 岁;p<0.001);对于模拟实验室负责人,Claude 的输出结果显著更老。性别方面,在所有三个模型中,女性在模拟教师画像中约占一半,但 Gemini 展现出更高的性别多样性,还表示了 “非二元”(6.8%)和 “其他”(4.3%)性别。而在模拟实验室负责人中,ChatGPT 和 Gemini 的性别分布较为均衡,Claude 则呈现出男性主导(63.5%)的情况。种族多样性上,ChatGPT 和 Gemini 生成的模拟教师和实验室负责人画像的种族多样性更高,Claude 生成的画像则以 “白人”/“亚洲人” 为主(模拟教师中占 34.4%,模拟实验室负责人中占 47.8%) 。专业偏好上,所有模型都涉及多种专业,ChatGPT 将外科列为首选专业,Gemini 和 Claude 则更多地展示了急诊医学医生。对于模拟实验室负责人,Claude 的输出结果在外科(22.4%)、麻醉学(22.7%)和急诊医学(20.7%)方面更为集中,而 ChatGPT 和 Gemini 的专业分布更为广泛。
从研究结论和讨论部分来看,该研究意义重大。研究揭示了不同 AI 平台在模拟医学教育领导者画像上存在明显偏差,这种偏差可能会强化医疗教育中的不公平现象。例如,Claude 生成的模拟实验室负责人画像偏向于年龄较大、白人男性,这可能会让年轻、非白人或女性学习者认为自己在该领域的发展机会有限,从而影响他们的职业选择和发展。而 ChatGPT 和 Gemini 虽然在年龄、性别和种族方面表现出更广泛的多样性,但也存在一些与当前性别指南不一致的表述。
此外,研究还发现 AI 生成的描述中特定医学专业的代表性过高,这反映出当前模拟医学教育对某些专业的过度关注,可能会忽视其他专业的发展,进而影响医学教育的全面性和公平性。为了解决这些问题,研究人员提出了一系列建议,包括开发符合伦理的 AI、提高 AI 素养以及在模拟医学教育中促进多元化领导。只有这样,才能营造公平、包容的医疗教育环境,让不同背景的学习者都能在模拟医学教育中获得充分的发展机会,培养出更具多元化和包容性的医疗人才队伍,更好地满足现代医疗行业对人才的需求。