人工智能沟通训练工具在医学本科生教育中的应用:初级保健背景下的混合方法可行性研究

【字体: 时间:2025年11月02日 来源:JMIR Medical Informatics 3.8

编辑推荐:

  本研究针对医学本科生沟通技能培训中存在的可扩展性、资源分配和个性化等挑战,探讨了基于大型语言模型(LLM)的人工智能虚拟病人(AI VP)在初级保健场景下的应用可行性。采用混合方法研究发现,AI VP在内在动机(median=16.5/20.0)、系统可用性(median=12.0/15.0)和心理安全(median=5.0/5.0)方面获得高度评价,虽在真实感(median=6.0/10.0)方面尚有提升空间,但已展现出作为安全实践环境和即时反馈工具的重要教育价值,为医学教育创新提供了新途径。

  
在医疗保健领域,有效的沟通是高质量服务交付的基石,深刻影响着患者满意度、治疗依从性乃至临床结局。然而,对于医学本科生而言,沟通技能的培养却长期面临诸多困境。传统的培训方法,例如与标准化病人(Standardized Patients, SPs)进行角色扮演,虽然有效,但往往需要投入大量的人力、物力和时间资源,难以大规模推广,并且难以提供持续、一致且针对每位学习者个性化需求的反馈。随着医学教育规模的扩大和对培训质量要求的提高,寻找一种既能保证教学效果,又能实现规模化、个性化训练的新方法变得尤为迫切。
正是在这样的背景下,人工智能(Artificial Intelligence, AI)技术,特别是大型语言模型(Large Language Models, LLMs)的迅猛发展,为破解这一难题带来了曙光。这些先进的AI模型能够模拟出高度逼真的医患互动场景,为医学生提供一个可以反复练习、并能获得即时详细反馈的可控环境。尤其是在初级保健(Primary Care)场景中,医患沟通通常涉及复杂的、多学科的健康问题,处理敏感话题和进行共同决策的需求尤为突出,因此,利用AI虚拟病人(AI Virtual Patients, AI VPs)进行训练具有独特的价值。尽管已有一些讨论性文章关注AI在医学教育中的应用,但利用先进语言模型模拟VP互动并进行系统评估的实证研究仍然有限。
为了填补这一空白,由Chris Jacobs、Hans Johnson、Nina Tan、Kirsty Brownlie、Richard Joiner和Trevor Thompson组成的研究团队,进行了一项题为《Application of AI Communication Training Tools in Medical Undergraduate Education: Mixed Methods Feasibility Study Within a Primary Care Context》的探索性研究,并发表在《JMIR Medical Informatics》上。这项研究旨在系统评估基于LLM的AI VP工具在医学本科生初级保健沟通技能训练中的可行性、有效性和用户体验。
研究人员采用了混合方法序贯解释性设计(Mixed Methods Sequential Explanatory Design),依次进行定量调查和定性焦点小组讨论。研究招募了18名参与者,包括15名第三年医学本科生和3名执业医生(全科医生导师)。他们在一个主题为“泌尿系癌症评估”的初级保健教学日中,与一个模拟前列腺癌风险评估咨询的AI VP进行了互动。该AI VP基于OpenAI的GPT-3.5-turbo模型构建,并集成了自然语音合成技术(ElevenLabs服务),以模拟一位50岁黑人男性患者的咨询过程,学生可以通过打字或语音(通过Web Speech API转换)与VP交流。定量评估采用了精简版的沉浸式技术评估量表(Immersive Technology Evaluation Measure, ITEM),该量表基于医疗保健教育沉浸式技术模型(Model for Immersive Technology in Healthcare Education, MITHE)开发,用于评估五个核心领域:真实感(Fidelity)、沉浸感(Immersion)、内在动机(Intrinsic Motivation)、汇报反思(Debriefing)中的心理安全(Psychological Safety)以及系统可用性(System Usability)。随后的焦点小组讨论则深入探讨了参与者对AI工具的真实性、教育价值及挑战的体验。
研究结果
定量结果
定量数据显示,参与者对AI VP体验的整体评价积极。ITEM总分中位数为47.5(总分65.0,IQR 43.0-51.2),与中性基准点相比存在显著正差异(效应量d=2.00, P<.001)。具体到各领域:
  • 内在动机得分最高,中位数为16.5(满分20.0,IQR 15.0-18.0),效应量巨大(d=2.09, P<.001),表明学生认为该工具极具吸引力且富有学习价值。
  • 系统可用性得分也很高,中位数为12.0(满分15.0,IQR 11.5-12.5),效应量巨大(d=2.18, P<.001),说明平台易于使用。
  • 心理安全获得满分评价(中位数5.0/5.0,IQR 5.0-5.0),效应量极大(d=4.78, P<.001),反映出学生在与AI互动及后续汇报时感到安全、无评判压力。
  • 真实感沉浸感得分相对适中,中位数分别为6.0/10.0(IQR 5.2-7.0)和8.5/15.0(IQR 7.0-9.8)。真实感与中性点无差异(P=.02),沉浸感则未达到统计显著性差异(P=.08),提示AI交互的真实性和沉浸感尚有提升空间。
定性结果
通过对开放式问卷和焦点小组讨论的定性分析,归纳出三个核心主题,共包含11个子主题:
  1. 1.
    可用性与实用性:参与者认为技术平台易于访问和使用,但响应延迟(约2-3秒)和技术故障(如系统崩溃、问题需重复提问)影响了对话的自然流畅度和学习体验。
  2. 2.
    AI交互的真实感:对此评价不一。AI的声音和语调被普遍认为很真实,其回答的不可预测性也增加了真实感。然而,也存在一些负面体验,如部分回答显得“机械”、“缺乏情感”,有时AI会使用医学术语或提供过多未经询问的细节,这与普通患者的认知不符。此外,缺乏非语言线索(如肢体语言、面部表情)也限制了真实感。
  3. 3.
    教育价值与效用:这是最受肯定的方面。参与者高度评价AI VP在巩固临床知识、提供即时反馈方面的作用,认为它是一个非常有用的“知识检查”工具。更重要的是,它提供了一个“安全的实践环境”,学生可以毫无压力地犯错、尝试不同的沟通方式,而无需担心对真实患者造成伤害。同时,其可访问性(理论上可随时随地练习)也被视为一大优势,尽管本研究仅限于受监督的课程内使用。
讨论与结论
本研究综合定量与定性证据表明,尽管当前阶段的AI VP技术在真实感上尚未完全达到人类标准化病人的水平,存在响应延迟、语言有时过于机械化或专业化等问题,但它已经具备了支持有意义教育互动的足够真实度。研究结果凸显了AI VP在医学教育,特别是沟通技能训练中的巨大潜力。其核心优势在于能够创造一个高度心理安全、可扩展、可重复且能提供个性化即时反馈的学习环境,从而有效激发学生的内在学习动机。
该技术的成功应用,代表了医学教育创新的一个充满希望的方向。它能够弥补传统SP培训在资源投入和可扩展性方面的不足,为学生提供更多样化、更灵活的练习机会。未来,通过优化技术基础设施(如减少API延迟)、改进提示工程(Prompt Engineering)以生成更自然的对话、以及整合视觉化身(Avatars)来弥补非语言沟通的缺失,AI VP的真实感和教育价值将得到进一步提升。此外,AI VP还有望应用于客观结构化临床考试(OSCE)、高级模拟人训练、甚至自动化评估等领域。
当然,本研究作为一项可行性探索,也存在一些局限性,如样本量较小、缺乏与人类SP的直接对比评估、以及学习效果未通过客观的能力前后测来衡量等。这些都为未来的研究指明了方向。总之,这项研究有力地证明了将AI驱动的虚拟病人整合到医学课程中的可行性与初步有效性,为提升医学人才培养的质量和效率开辟了新的路径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号