《Nature Medicine》:Reliability of LLMs as medical assistants for the general public: a randomized preregistered study
编辑推荐:
这项研究揭示了当普通公众在医疗自我评估中借助大语言模型(LLM)时,其表现反而会显著下降。研究人员开展了一项包含1,298名参与者的随机对照研究,发现尽管GPT-4o、Llama 3和Command R+等LLM模型在单独任务中表现出色(正确识别相关病况的比例高达94.9%,判断行动方案(disposition)的准确率达56.3%),但参与者在相同模型辅助下识别相关病况的比例却不足34.5%,表现甚至不如仅使用搜索引擎等传统方法的对照组。研究指出“用户交互”是LLM部署的关键挑战,并强调仅依赖医学知识基准测试或模拟交互无法预测真实用户交互中的失败,主张在医疗领域公开部署前必须进行系统化的人类用户测试。
随着大语言模型(Large Language Model,LLM)在医学执照考试中取得接近满分成绩的消息频传,全球医疗服务提供者正积极探索利用它们为公众提供初步医疗建议,将其视为缓解医疗系统压力的“新入口”。然而,一个核心问题悬而未决:这些模型在实验室里取得的辉煌成绩,当面对没有医学背景的普通人时,真的能转化为准确、可靠的辅助决策能力吗?现有的标准医学知识测试或模拟患者交互,是否足以预测LLM在真实世界场景下的表现?为了回答这些问题,一支研究团队在《自然·医学》(Nature Medicine)期刊上发表了一项严谨的随机对照研究。
为了系统评估LLM作为公众医疗助手的实际效果,研究人员设计了一项包含1,298名英国成年参与者的随机对照试验。研究创建了10个涵盖不同急迫程度的常见医疗场景(如蛛网膜下腔出血subarachnoid hemorrhage、肺栓塞pulmonary embolism等),并招募了7名经验丰富的医生参与制定“金标准”答案(包括最佳处置方案和相关疾病列表)。参与者被随机分为四组:三组分别使用GPT-4o、Llama 3或Command R+三种主流LLM进行辅助决策,对照组则被允许使用任何他们通常在家会使用的方法(主要是网络搜索)。研究核心是评估参与者在LLM辅助下,能否正确判断病情紧急程度(从自我护理到呼叫救护车共五级)并识别出相关的潜在疾病。
研究主要使用了临床情景模拟(clinical vignette)方法,通过在线平台(Dynabench)进行数据收集和交互记录。关键实验技术包括:1)随机分层抽样,确保各实验组的人口学特征与英国全国成年人口构成相似;2)基于医生共识的黄金标准制定,由两组医生分别独立确定每个情景的最佳处置方案和鉴别诊断列表;3)人机交互转录分析,深入探究交互失败的具体原因;4)对照基准测试,使用经过筛选的MedQA医学问答数据集子集评估LLM本身的医学知识水平;5)模拟用户(simulated users)实验,使用另一个LLM(GPT-4o)模拟患者行为,以对比真实人类与模拟代理在相同任务上的表现差异。所有统计分析均使用Python中的Statsmodels和SciPy包完成。
研究结果
任务验证(Task validation):当研究人员直接将医疗场景和问题提供给LLM时(不通过用户交互),模型表现优异。GPT-4o、Llama 3和Command R+在识别至少一种相关病况上的成功率分别达到94.7%、99.2%和90.8%,在判断正确处置方案上的准确率也分别达到64.7%、48.8%和55.5%。这表明模型本身具备处理这些任务所需的医学知识。
实验性能(Experimental performance):然而,当普通公众使用这些相同的LLM时,结果发生了戏剧性反转。与使用传统资源的对照组相比,使用LLM的参与者在识别相关病况方面表现显著更差(对照组识别至少一种相关病况的几率是LLM使用组的1.76倍),并且平均识别的相关病况数量也更少。在判断处置方案准确率上,LLM使用组与对照组之间没有统计学上的显著差异,但整体正确率仅为约43%。最关键的是,所有使用LLM的参与者组,其表现均显著低于LLM单独运行时的表现。
用户交互中的表现(Performance in user interactions):为了探究性能下降的原因,研究人员分析了交互记录。他们发现,在交互过程中,LLM通常(GPT-4o:65.7%, Llama 3:67.0%, Command R+:73.2%)会提及至少一种相关病况,但这仍远低于LLM单独运行时的水平,表明用户未能向模型提供充分信息。更关键的是,即使LLM在对话中给出了正确建议,用户也并未总能将其纳入最终答案。对30组随机交互的定性分析揭示了多种交互失败模式:用户初始信息不完整、提出封闭式问题限制了LLM的回答范围、LLM提供误导性或前后矛盾的建议(例如,对相似症状给出完全相反的建议),以及LLM对输入的细微变化过于敏感。
问答基准测试(Question-answering benchmarks):研究人员在针对研究场景筛选出的MedQA问题子集上测试了LLM,发现模型在标准化医学问答任务上的表现(通常达到或超过60%的通过标准)远高于其在真实人机交互任务中的表现。在多达26/30的案例中,LLM的基准测试分数高于其对应的人类用户交互得分,且两者间相关性很弱。这表明,LLM在静态问答测试中的优异表现,并不能保证其在动态、交互式的真实任务中能为用户提供有效帮助。
模拟患者交互(Simulated patient interactions):为了评估模拟用户交互作为测试方法的有效性,研究人员用另一个LLM模拟患者,重复了实验。结果显示,模拟“患者”的表现(平均处置准确率57.3%,识别相关病况准确率60.7%)优于真实人类参与者,且结果分布缺乏人类固有的变异性。模拟结果与真实人类交互结果之间的预测关系非常微弱,甚至没有关系。这说明,仅依赖模拟交互进行安全性评估,无法准确预测LLM在真实公众用户中的表现。
结论与讨论 本研究明确指出,尽管大语言模型(LLM)本身具备高水平的医学知识,但在作为公众医疗助手直接使用时,其有效性面临严峻挑战。研究核心结论是:LLM与人类用户的组合在医疗自我评估任务上的表现,并不优于仅使用传统资源(如网络搜索)的用户,甚至在识别相关病况方面表现更差。 造成这一“人机交互鸿沟”的关键原因在于信息传递的双向失败:用户常无法提供充分、关键的临床信息给LLM,而LLM即便给出了正确建议,也未必能有效引导用户理解和采纳。此外,LLM对输入变化的敏感性以及偶尔出现的错误,进一步削弱了用户的信任和交互效果。
这项研究的重要意义在于,它揭示了当前评估LLM医疗应用能力的标准方法——即依赖医学知识基准测试(如MedQA)和模拟用户交互——存在根本性局限。这些方法无法预测LLM在真实、非专业用户交互场景中可能出现的失败。因此,研究团队强烈主张,在将LLM作为医疗助手向公众部署之前,必须进行系统性的、包含多样化真实用户的人类安全测试,而不仅仅是技术层面的基准评估。这对于确保人工智能在医疗保健这一高风险领域的可靠性和安全性至关重要,也为未来设计更可靠、更具交互确定性的LLM医疗工具指明了方向。