编辑推荐:
为解决 LLMs 在医学应用中的问题,研究人员开展红队测试研究,发现其存在诸多不足,为模型改进提供参考。
在当今数字化时代,大语言模型(LLMs)如 ChatGPT 等迅速崛起,其在医学领域的应用潜力也备受关注。想象一下,医生们希望借助 LLMs 快速准确地回答患者咨询、生成出院小结、协助完成各种行政任务,从而提高医疗效率。然而,现实却给这份期待泼了冷水。LLMs 存在不少问题,它容易受到训练数据中不准确信息和偏差的影响,可能产生 “幻觉”,即看似合理但与现实不符的内容。当被用于模拟回复癌症患者的消息时,GPT-4 就被发现有不小的风险,可能错误表述病情严重程度和推荐治疗方案,甚至在个别案例中还存在导致患者死亡的潜在风险。而且,像 ChatGPT、GPT-4 等热门模型还会传播种族主义言论和已被推翻的医学理论,这可能会加剧健康领域的不平等现象。尽管如此,由于 LLMs 的巨大前景,它已经开始在现实临床环境中得到应用。鉴于其对患者治疗结果和公共健康的潜在影响,开展相关研究以解决这些问题迫在眉睫。
为了深入了解 LLMs 在医学领域的表现,来自斯坦福大学等机构的研究人员开展了一项具有创新性的研究。该研究成果发表在《npj Digital Medicine》上。研究人员组织了一场交互式研讨会,召集了临床医生、计算机科学家、工程师和行业领袖等多领域人才,组成跨学科团队,对 LLMs 进行红队测试(一种通过模拟对手攻击来暴露系统或模型漏洞的方法)。
研究人员采用的主要技术方法包括:首先,组织跨学科团队,让参与者基于现实医疗场景设计提示(prompts)来测试模型,这些提示旨在暴露模型的漏洞和不良输出;其次,提供一个分析模型性能的框架,从安全、隐私、幻觉 / 准确性、偏差这四个主要类别对模型的回复进行评估;然后,使用 2023 年 11 - 12 月版本的 GPT-3.5、GPT-4.0(含网络)和 GPT-4.0 的应用程序编程接口(API)进行测试,同时还对 GPT-4o(2024 年 9 月发布)进行了测试;最后,由六名医学学生审查员手动评估所有提示 - 回复对,确保评估的准确性和一致性,并通过卡方分析比较模型之间的准确性百分比 。
下面来看看具体的研究结果:
- 不适当回复比例及任务类型差异:研究共涉及 376 个独特提示,产生了 1504 个回复。总体上,20.1% 的回复不适当,其中超过一半(51.3%)包含幻觉内容。按任务类型分层分析发现,不同任务类型(如治疗计划、事实核查、患者沟通等)的不适当回复率(约 16 - 24%)与未分层分析结果相似。GPT-3.5 产生的不适当回复比例最高(25.8%),显著高于 GPT-4.0(16.5%)、GPT-4.0 with Internet(17.8%)和 GPT-4o(20.4%) 。
- 不适当回复的具体表现
- 准确性问题:许多不适当回复存在医学准确性问题,例如在器官移植分配的诊断策略、肾功能估计(还包含种族偏差)、心肌梗死评估(包含性别偏差)以及呼吸急促和胸痛治疗等方面出现错误。而且,模型在处理用户提示时,还存在回复冗长、未充分解决问题、难以推断隐含信息等情况。
- 安全问题:许多被标记为安全问题的回复也存在准确性问题,表明 LLMs 回复中的不准确信息与潜在的患者伤害相关。
- 隐私问题:模型容易生成包含个人身份信息和受保护健康信息(PHI)的回复,且未进行免责声明。部分情况是由于用户输入包含 PHI 的提示,但也反映出模型普遍缺乏对医疗隐私标准的考量。
- 偏差问题:LLMs 存在基于身份的歧视和错误刻板印象,例如在 “填空” 任务中,对不同种族、性别患者给出有偏差的回复,在疼痛管理策略建议等方面也表现出明显的种族和性别偏差 。
- 模型性能的其他发现:尽管模型存在诸多问题,但也有一定优点,如能提取药物清单并列出一些相互作用,能根据用户要求调整回复(如总结、翻译)。然而,在总结和患者教育任务中,模型的表现受限于需要交叉检查以确保准确性,且 GPT-4 系列模型存在过度阐述的问题。
综合研究结论和讨论部分,这项研究意义重大。它首次在医学领域对 LLMs 进行临床红队测试,创建了一个包含对抗性提示和手动注释的强大数据集。研究发现 GPT-4.0 在性能上优于 GPT-3.5,但所有模型都存在需要改进的地方。不适当回复往往很微妙且难以验证,模型在处理隐私、间接询问和需要精确信息的任务时表现不佳。不过,模型在一些低风险自动化任务中仍有一定价值。通过这次研究,临床医生亲身体验到模型的缺点,技术专家也有机会讨论提示工程和当前模型的局限性。这不仅有助于评估模型,还促进了跨学科的相互学习。研究还为未来的红队测试活动提供了参考,强调了临床医生参与评估新技术的重要性,为安全地将 LLMs 集成到医疗保健中迈出了重要一步。未来,还需要进一步探索不同语言和文化背景下的提示,研究模型回复随时间的演变,开发自动化工具检测模型错误,并创建更多由医生主导的基准场景,以确保 LLMs 在医疗领域的安全应用。