大型语言模型在医学教育中的应用探索:ChatGPT生成眼科临床案例与多选题的可行性与教育价值评估

《BMC Medical Education》:Generative AI in medical education: feasibility and educational value of LLM-generated clinical cases with MCQs

【字体: 时间:2025年10月29日 来源:BMC Medical Education 3.2

编辑推荐:

  本研究针对医学教育中高质量临床案例与多选题(MCQs)构建耗时耗力的难题,探讨了使用ChatGPT 4.0生成眼科临床案例及MCQs的可行性。研究通过教师质量评估(平均分52.33±5.44/60)和学生反馈(95%认可学习资源丰富性),证实LLMs能快速生成符合教学大纲的案例,但存在16.67%的AI幻觉问题(如霰粒肿案例误用高频超声)。结果表明需结合专家审核机制,为AI辅助医学教育提供了重要实践依据。

  
在当今医学教育领域,培养医学生的临床思维能力和诊断水平至关重要。问题导向学习(PBL)和案例导向学习(CBL)等主动学习策略日益受到重视,其中结合临床案例的多选题(MCQs)因其能够有效评估高阶思维和临床决策能力,成为常用的教学与考核工具。然而,构建高质量的临床案例和MCQs是一项极具挑战性的工作——不仅需要深厚的临床专业知识,还要符合教学大纲要求,且过程耗时费力。对教师而言,从零开始设计案例和题目需要投入大量时间;对学生来说,将其作为学习策略也因难度大而难以普及。
随着人工智能技术的飞速发展,大型语言模型(LLM)如ChatGPT的出现为医学教育带来了新的可能性。这些模型能够快速生成文本内容,理论上可以辅助教师创建教学材料,实现个性化学习。但是,LLM在医学教育中的应用仍处于探索阶段,特别是在专科性强的眼科教育领域,其生成内容的准确性、教育价值以及潜在风险(如AI幻觉)尚未得到充分验证。
正是在此背景下,张奇及其合作者在《BMC Medical Education》上发表了他们的研究成果,系统评估了使用ChatGPT 4.0生成眼科临床案例与MCQs的可行性和教育价值。研究人员旨在探究这一创新方法是否能够为医学教育工作者和学生提供高效、高质量的教学资源,同时识别其中存在的局限性,为未来AI在医学教育中的合理应用提供指导。
为开展此项研究,团队采用了几项关键技术方法:首先使用结构化提示模板(包括角色设定和案例框架)指导ChatGPT 4.0(2024年5月版)生成12个眼科临床案例,每个案例包含5-6道聚焦诊断和鉴别诊断的MCQs;然后邀请8名具有3-20年教学经验的教师从案例生成、描述、体格检查、诊断、鉴别诊断和MCQs设置六个维度进行质量评估(采用12项5点Likert量表,总分60);最后选择评分最高的8个案例应用于本科生复习课,并通过课前课后问卷(20名学生参与)收集学生反馈。统计分析采用重复测量方差分析和主成分分析(PCA)等方法处理评估数据。
评估结果
教师评估显示,12个ChatGPT生成案例的平均得分为52.33±5.44分(最高54.25分,最低48分),表明整体质量达到可接受水平。案例8(霰粒肿)得分最高(54.25±5.01),而案例7(角膜炎)得分最低(48.00±5.26)。评估发现教师间存在显著评分差异(F=16.050,P<0.001),经验丰富的教师评分更为严格。
质量维度分析
在12项评估标准中,诊断准确性(4.68±0.16)、临床真实性(4.66±0.19)和诊断依据充分性(4.51±0.21)得分最高,而MCQs相关性与难度适宜性(4.01±0.36)、鉴别诊断全面性(4.16±0.25)及特殊眼部检查描述的诊断价值(4.25±0.30)得分最低。主成分分析(PCA)提取了四个主要成分(累计方差解释率71.59%):案例逻辑与鉴别诊断质量(24.13%)、诊断可靠性(21.20%)、临床与评估真实性(13.25%)以及教学实用性(13.01%)。
AI幻觉问题
研究发现16.67%的案例(2/12)存在AI幻觉现象。案例4(急性闭角型青光眼)在描述角膜水肿妨碍眼底检查的同时,却矛盾地报告了房角镜检查结果;案例8(霰粒肿)不恰当地将高频超声列为辅助检查手段,这与临床实践不符。
学生反馈
95%的学生认为LLM生成的案例丰富了学习资源,80%的学生报告提高了跨学科整合能力和学习效率。85%的学生在课后使用LLM进行练习,但同时对内容准确性和难度校准表示担忧。部分学生指出案例描述有时过于详细降低了思考挑战性,而MCQs中出现的绝对术语(如"above all")也不利于批判性思维培养。
本研究通过系统评估证实,大型语言模型如ChatGPT 4.0在生成眼科临床案例与MCQs方面具有一定可行性,能够快速创建符合教学大纲要求的教学材料。教师评估表明,在明确疾病名称的提示下,LLM能够生成诊断准确(4.68±0.16)且贴近临床实践(4.66±0.19)的案例内容,这为医学教育工作者提供了一种高效的内容创作工具,有望减轻教学负担。
然而,研究也揭示了LLM在医学教育应用中的显著局限性。最重要的发现是AI幻觉现象的存在(16.67%的案例),表现为检查描述矛盾或不符合临床实践,这直接影响了生成内容的可靠性。同时,MCQs的质量问题(仅得4.01±0.36分)也值得关注,包括难度不适中和与案例内容不匹配等。教师评估中的显著差异(F=16.050,P<0.001)进一步说明,对LLM生成内容的评价标准亟需规范,特别是涉及难度判断等主观维度时。
从教育实践角度,研究表明当前阶段LLM更适合作为辅助工具而非替代方案。生成的内容需要经过专业教师的审核和 refinement,才能用于正式教学场景。对于学生自主使用LLM进行学习,由于本科生尚不具备足够能力识别内容错误,需要教师提供明确指导和访问支持(如推荐替代平台)。
该研究的创新之处在于首次系统评估了LLM在眼科这一专科领域的教育应用价值,并采用了教师评估与学生反馈相结合的多维度分析方法。PCA分析结果进一步明确了评估者在评判LLM生成内容时的关注维度,为未来研究提供了理论框架。
展望未来,LLM在医学教育中的应用前景广阔但需谨慎推进。下一步研究应着重解决幻觉问题,探索多模态数据(如眼底图像)与文本生成的结合,并建立标准化的质量评估体系。同时,需要开发针对医学教育场景的提示工程策略,提高生成内容的准确性和教育价值。
总之,这项研究为AI时代的医学教育提供了重要实践依据,指明了一条人机协作的教学创新路径——利用LLM提高内容生成效率,同时依靠教师专业能力确保教育质量。这种混合教学模式有望在保证准确性的前提下,丰富教学资源,促进个性化学习,最终提升医学教育效果。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号