编辑推荐:
当前医学教育面临临床 vignettes 资源不足等问题,研究人员利用 OpenAI 的 GPT-4 开展生成皮肤病临床 vignettes 的研究。结果显示生成的 vignettes 准确性高,但存在患者人口统计学多样性不足等问题。该研究为医学教育创新提供方向。
在医学教育领域,传统的学习方式正面临着前所未有的挑战。随着医学知识的快速增长和更新,医学生和住院医师们需要掌握的内容越来越多。然而,用于教学和考核的资源却存在诸多不足。就拿临床 vignettes(临床病例小插曲,用于将医学知识融入实际场景,评估学生的诊断推理等能力)来说,它是现代医学教育的重要基石,不仅大量出现在美国医学执照考试(USMLE)中,还用于临床前基于案例的教学。但传统的临床 vignettes 生成困难,需要经验丰富的医生投入大量精力,这导致其在全国医学生中的可获取性和数量分布不均,还引发了对 USMLE 考试中重复试题的担忧。同时,在皮肤病和软组织病理学的教学中,虽然很多病症依赖视觉评估,但标准化考试又高度依赖基于文本的 vignettes,且描述皮肤病变的术语对皮肤病的诊断和治疗至关重要 ,现有资源难以满足需求。为了解决这些问题,来自哈佛医学院(Harvard Medical School)等机构的研究人员开展了一项具有创新性的研究。
研究人员利用 OpenAI 的 GPT-4 大语言模型(LLMs,一种机器学习模型,能利用大量文本数据执行特定任务),为 20 种在美国医学执照考试中涉及的皮肤和软组织疾病生成临床 vignettes 以及相应的解释。在研究过程中,研究人员先从 USMLE 内容大纲的皮肤与皮下组织子标题下的 89 种病症中,随机选取了 20 种,包括猩红热、痤疮、黑色素瘤等。然后使用 GPT-4,按照特定的提示(prompt)生成临床 vignettes。之后,由三位不同专业(急诊医学、皮肤病学和内科)的执业主治医师,依据与科学共识的一致性、临床危害可能性、全面性、人口统计学偏差可能性和整体质量等标准,通过李克特量表(Likert scale)对生成的 vignettes 进行评分 。最后利用 Python 中的 pandas 和 numpy 等软件包进行统计分析,计算皮尔逊相关系数评估各标准之间的相关性。
研究结果
- Vignette 详情:在生成的 20 个临床 vignettes 中,男性患者 15 例,女性患者 5 例,患者年龄中位数为 25.0 岁。4 名患者提供了种族信息,其中 3 名白种人,1 名非裔美国人。模型输出平均字数为 332.68,临床 vignette 部分平均 145.79 字,解释部分平均 184.89 字,解释通常比 vignette 长,二者长度平均比例为 0.85。
- 医师评分:生成的 vignettes 在与科学共识的一致性(4.45,95% CI:4.28 - 4.62)、全面性(4.3,95% CI:4.11 - 4.89)和整体质量(4.28,95% CI:4.10 - 4.47)方面得分较高;在临床危害可能性(1.6,95% CI:1.38 - 1.81)和人口统计学偏差可能性(1.52,95% CI:1.31 - 1.72)方面得分较低。全面性与整体质量之间存在强相关性(r = 0.83) 。
研究结论与讨论
该研究表明,使用像 GPT-4 这样的大语言模型进行合成医学教育具有可行性和有效性。GPT-4 生成的 vignettes 准确性高,有可能被纳入标准化医学考试,为医学教育提供可获取、可定制且可扩展的教育资源。然而,研究也存在一些局限性。例如,生成的 vignettes 在患者人口统计学方面多样性有限,主要以男性患者为主,种族多样性不足,未来需要在提示工程和模型训练数据集中更有意识地纳入多样化的患者表征。同时,LLMs 可能会出现幻觉现象,导致输出不一致,且其训练数据可能不代表标准医疗护理,需要临床专家进行仔细筛选,还可使用基于专家推荐内容的特定训练数据来优化模型输出 。此外,本研究的专家评分小组中皮肤科医生占比较少,可能影响对 AI 生成病例细微诊断差异的敏感性,后续研究应增加皮肤科医生比例。总体而言,该研究为医学教育领域利用生成式人工智能提供了重要的参考,为解决传统医学教育资源问题带来了新的希望,为未来的医学教育创新指明了方向,有望推动医学教育朝着更加高效、优质的方向发展。