提升全科医生问诊技能培训:对话式人工智能在模拟咨询评估准备中的教育创新评估

【字体: 时间:2025年09月16日 来源:Education for Primary Care 1.1

编辑推荐:

  本综述创新性地评估了对话式人工智能(AI)系统在全科医生(GP)模拟咨询评估(SCA)准备中的应用价值。研究通过混合方法验证了该AI系统在临床真实性、教育效用及技术性能方面的卓越表现,证实其能有效解决传统培训中演员资源有限、成本高昂等痛点。结果显示,AI模拟不仅获得高用户接受度(临床内容真实性中位数4.5),更可实现24-84%的成本削减,为GP教育提供了可扩展、高性价比的互补性培训方案,尤其适用于视频化考试模式的技能适配。

  

背景

人工智能(AI)在医学教育中的整合为临床培训开辟了新途径,尤其是在全科医生(GP)教育领域。对话式代理AI系统能够进行动态的、类人对话,为模拟患者咨询提供了有前景的工具,而患者咨询是GP实践的基石。这些AI模拟为学员提供了一个可控、可重复且可扩展的环境,以发展和完善他们的临床推理、沟通技能和诊断准确性。代理AI利用自然语言处理(NLP)和机器学习(ML),提高了患者互动分析的准确性和深度。

随着对训练有素的GP需求增长,同时面临劳动力短缺和患者复杂性增加等挑战,对话式AI等创新培训模式对于弥补传统教育方法的差距变得至关重要。GP培训严重依赖经验学习,学员通过与真实或模拟患者互动来建立问诊、体格检查和管理计划的能力。模拟临床评估(SCA),如英国皇家全科医师学院(MRCGP)考试中使用的评估,对于以标准化方式评估这些技能至关重要。然而,传统的SCA培训常常面临限制,包括训练有素的演员的可用性、后勤限制以及其作为视频通话评估的性质。对话式代理AI通过提供一个按需、可定制的平台来解决其中一些挑战,该平台可以模拟从常规就诊到罕见病症的各种患者表现。此类模拟中的保真度概念,传统上理解为模拟器复制人类患者的程度,已被Hamstra等人重新定义,强调功能任务对齐而非单纯物理相似性。此外,代理AI的现场模拟提供了生态效度,例如模拟反映临床实践情境需求的程度,推断其对于GP培训的效用。

模拟培训的好处与模拟基础教育的综合综述证据一致。它允许学员按照自己的节奏练习,在无需实时人际互动压力的情况下接收关于其表现的即时反馈。此外,对话式AI能够创建与特定学习目标相一致的定制场景,例如管理慢性疾病、处理心理健康问题或导航对GP实践至关重要的文化敏感咨询技能。患者遭遇的情感可以在模拟培训中复制,这可以补充理解并成为练习适应性应对策略教育策略的一部分。Kononowicz等人对虚拟患者模拟的系统综述强调,这种适应性提高了学习者的参与度和临床决策,尤其是与AI技术结合时。NLP和ML系统可以随着用户(学员)的输入自我进化,确保模拟随着临床能力的发展保持相关性和挑战性。评估这些互动的能力,部分需要评估对话代理系统的响应质量。然而,有证据表明,技术增强的模拟始终与知识、技能和行为相关结果的大效应量相关联。

方法

伦理考虑

伦理批准由英国斯温顿的地区独立研究委员会(CJ062023)获得。参与者在参与研究前以电子方式提供了知情同意。所有数据均匿名收集,并在整个研究过程中保持机密性。

研究设计

本研究采用混合方法、干预后调查设计,以评估复制SCA考试场景的对话式代理AI在GP学员中的应用效果。该设计整合了来自李克特量表反应的定量数据和来自开放式问题的定性见解,从而能够全面评估用户看法、感知的学习成果以及与AI工具的互动。数据收集在2025年2月至3月期间立即在干预后进行,以捕捉反思,同时体验仍然新鲜。这种方法与结合可衡量结果和经验反馈的数字健康教育研究一致。

调查工具

干预后调查旨在评估对话式AI化身在涉及糖尿病恶化和适当GP管理的患者咨询场景中的保真度、可用性和教育价值。与保真度和可用性相关的项目与经过验证的 healthcare-related technology in education 问卷相匹配。此外,项目在试点期间评估了冗余性。李克特量表的内部一致性事后使用Cronbach's α进行评估,目标阈值≥0.7。平均完成时间为5分钟。

程序

虚拟患者根据复制一名控制不佳的2型糖尿病患者设计。该案例反映了SCA领域的关键方面,用于评估GP候选人整合和应用临床、专业及沟通技能的能力。案例内容由两名GP审核并进行了多次试点测试。

模拟在带有内置麦克风和扬声器的笔记本电脑上进行。通过互联网连接访问SimFlow.ai平台,参与者经历一系列标准化模拟步骤。预读页面使用户熟悉案例和背景,随后是复制咨询的实时自由流动对话。此外,由大型语言模型(LLM)生成的反馈使用通用的SCA评分标准,根据咨询期间的表现创建个性化反馈。

该案例被整合到一个专注于考试准备的全科医生培训工作坊中。

数据分析 – 定量

所有分析均使用R(版本4.4.0)进行。结果以中位数和四分位距(IQR)报告,以准确反映集中趋势和变异性,避免正态性或区间标度的假设。为了检查基于参与者特征的看法差异,我们对两个比较组进行了单向方差分析(ANOVA)。

进行了成本效益分析,以比较对话式AI系统与传统基于演员的SCA准备培训的资源影响。计算了每种情景下每培训小时和每案例的总成本,以确定相对成本效益以及对GP培训计划的潜在资源影响。

数据分析 – 定性

采用了顺序解释性混合方法设计,定量分析为后续对定性反应的演绎主题分析提供信息。反馈从Google Forms逐字转录到文本数据集中,并按照Braun和Clarke的6阶段调查框架进行主题分析。两名研究人员独立熟悉数据,生成初始代码,并将代码分组为初步主题,参考从调查中开发的初始构念。迭代讨论完善了这些主题,确保它们捕捉了参与者关于SCA优势和挑战的观点。最终协议通过包括所有作者的小组会议达成,任何分歧均得到解决。

通过收敛并行设计综合定量和定性结果,以结合观点并增强混合方法的解释深度。

结果

参与者人口统计学

共有22名医疗专业人员完成了调查。大多数受访者拥有5-10年临床经验,其次是11年以上经验者,以及一小部分拥有1-2年经验者。大多数参与者之前没有使用对话式AI进行医疗培训,而少数报告有过此类技术的先前接触。

定量

调查工具的Cronbach's α得分为0.845,表明内部效度高。

参与者在所有评估领域对AI模拟给予积极评价。该系统在临床内容质量方面获得最高评分,“AI呈现的症状和病史在医学上是合理的”陈述获得中位数4.5分。同样,教育效用获得高度评价,“AI为咨询技能提供了宝贵的学习体验”也获得中位数4.5分。参与者普遍认为系统的咨询元素真实,“AI的情感和言语表达与预期的患者行为一致”获得中位数4.0分,而“AI基于不同提问风格展示出真实的反应变异性”也获得中位数4.0分。评分最低的方面与技术性能相关,“AI的响应延迟最小”获得中位数3.5分,尽管参与者仍对整体可用性给予积极评价,“AI易于使用”获得中位数4.0分。

ANOVA揭示了基于先前AI技术经验的看法存在显著差异。有AI经验的参与者在几个领域对系统的评价显著更有利。具体而言,在语音自然度、教育价值、临床推理技能发展和学员准备效用方面发现显著差异。在领域层面,培训效用和教育价值以及技术性能和可用性方面发现显著差异。

当比较基于临床经验的看法时,拥有11年以上经验的参与者对一些方面的评价显著高于经验较少的参与者。在感知患者反应真实性、语音自然度和学员准备效用方面发现显著差异。在领域层面,基于临床经验年限未发现显著差异。

成本分析表明,在所有交付情景中,AI模拟始终比基于演员的培训更具成本效益。对于通过视频会议进行的远程交付,无辅助的AI模拟展示了84%的成本节约。当由临床教师远程辅助时,此节省减少至47.5%。对于需要预订房间的面对面交付,辅助课程的成本优势最小,为23%的节省。

定性

对参与者开放式回答的主题分析揭示了三个主要主题:“真实性和真实性”、“技术性能和用户体验”以及“教育价值和临床效用”。关于“真实性和真实性”,参与者普遍发现AI系统提供了令人信服的真实患者互动,特别赞赏语音质量和反应模式。语言的保真度反映了语音和言语特征,参与者指出“患者的口音做得非常好,比标准英式/美式英语更真实”,而另一人重视反应模式——“良好的反应并在给予同理心时反应恰当,使其更真实”。临床内容被强调为特别真实,一位参与者评论说“病史和个人生活方式问题非常真实”。“现实主义”一词频繁出现,“真实的案例场景”。对话能力对一些人来说是积极的体验,这个概念促进了真实性:“措辞/对话节奏非常真实”。

技术方面既代表了优势也代表了挑战,参与者识别出对话流和响应时间方面的偶尔问题。正如一位参与者解释的,“有时在现实生活中有更多的停顿、间隙等,如果加入这些可能有用”。然而,这种对话连续性被认为受到影响,“改进停顿,因为在停顿期间信息丢失”。几个人指出了影响体验的系统功能:“在咨询期间使用口头提示‘mm’时AI切断导致延迟”。尽管存在这些限制,大多数参与者发现这些问题并未减损整体教育价值,一些人建议这些技术元素可以在未来的迭代中改进。

参与者强烈认可该系统用于SCA准备的教育效用。考试准备的能力受到重视:“它接近真实的患者模拟,我们可以用它进行模拟考试练习”。反馈组件也受到赞赏,一位参与者强调“有用的场景和给出的反馈分析咨询”。临床内容包括咨询的重要方面,“……心理社会史”,并被报告为有用。经验更丰富的临床医生倾向于强调系统对学员准备的价值,特别赞赏它允许重复练习具有挑战性的场景和专注的技能发展。正如一位参与者总结的,它提供了一个“作为学习工具很棒”的补充临床技能发展的方式。

讨论

主要发现

我们的研究结果表明,对话式AI可以为GP咨询技能培训提供一个有教育价值且具有成本效益的工具。参与者在所有领域对系统给予积极评价,特别是其临床内容准确性和教育效用。书面反馈的主题分析显示,虽然技术方面偶尔带来挑战,但这些并未显著减损系统的感知教育价值。经验更丰富的临床医生和那些有AI经验的参与者对系统的评价更有利,这表明对临床实践和教育技术的熟悉度可能会影响对此类培训工具的看法。

与先前工作的关系

这些结果与先前关于模拟基础医学教育的研究一致。教育价值的高评分支持了带有刻意练习的模拟增强临床技能获取的发现。同样,我们的参与者强调现实临床内容的价值而非完美的技术性能,并部分将保真度视为功能任务对齐而非匹配的物理相似性。识别出的技术挑战,主要与对话流相关,是当前对话式AI系统的局限性,尽管这些在此试点中并未显著影响感知教育效用。

AI模拟解决了当前SCA准备中的一个关键不一致性:虽然考试本身通过视频咨询进行,但传统培训和日常临床护理更常以面对面接触发生。这种模式的不一致可能使学员处于不利地位,特别是在发展特定于远程咨询的技能方面,AI提供了一个更一致的准备环境。将对话式AI整合到GP培训中与不断发展的能力框架和毕业后医学教育的课程要求相一致。RCGP关于全科医学临床咨询的课程陈述强调发展信息收集、临床推理和以人为本的护理技能,所有这些都是参与者发现AI模拟有益的领域。此外,随着医学教育日益采用基于结果的方法,专注于可观察的能力而非知识获取,允许刻意练习特定咨询能力的模拟工具变得特别有价值。关于医学教育中数字技术的系统综述强调,成功的实施取决于“与现有课程的整合”,而非孤立的技术采用。这一发现对于AI咨询培训尤其相关,当将其定位为更广泛的SCA准备课程中的一个结构化组成部分,补充而非取代传统方法时,它似乎最有效。系统提供标准化、可重复场景的能力解决了平衡标准化与真实性的评估方法,考虑到SCA考试对完成培训的关键性质,这一点尤为重要。这些优势,结合显著的成本效益(远程无辅助交付节省84%),使对话式AI对SCA准备特别有价值。成本效益和按需可用性可以使培训计划增加练习机会,同时解决资源限制,特别是关注差异成就。未来的评估应评估这些好处是否转化为改进的考试表现,特别是对于基于视频的SCA形式,并探索如何最好地将此类技术整合到正式的GP培训课程中。

局限性

本研究有几个需要考虑的局限性。来自单一培训地点的小样本量限制了普遍性,可能无法代表早期职业学员的观点。按AI经验和临床经验进行的亚组分析虽然具有统计学意义,但效力不足,增加了统计错误的风险。此外,演绎主题分析可能限制了在预定定量框架之外识别新主题,可能错过了与原始调查领域不一致的重要参与者观点。作为基于自我报告看法而非客观绩效指标的干预后评估,该研究无法确定AI模拟是否实际改善了SCA考试结果。

结论

本研究提供了初步证据,表明对话式AI作为GP咨询技能培训的补充工具具有潜在价值。虽然不能替代传统的基于演员的培训,但AI模拟提出了一种具有成本效益的方法,可以扩展学员为SCA考试准备的练习机会。系统在提供临床准确场景和教育价值方面的优势被明确识别,尽管对话流和响应处理方面的技术限制需要进一步改进。未来的教育研究应评估对SCA考试表现的影响,并探索与正式GP培训课程的整合。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号