编辑推荐:
本文研究发现,非专家难以区分人工智能(AI)生成的医疗建议和医生的建议,且倾向于认为 AI 建议更有效、可信。即便低准确性的 AI 建议,也常被视为与医生建议相当。这可能导致误诊等危害,AI 用于医疗建议时需与专业医生协作。
一、研究背景
近年来,人工智能(AI)在医学和医疗保健领域的应用日益广泛,从放射学成像到心理健康聊天机器人,再到药物发现等多个方面均有涉及。新冠疫情的爆发,进一步促使人们习惯在网上寻求医疗信息,而生成式 AI 的迅猛发展,使得大语言模型(LLMs)如 Gemini、LaMDA、Llama 和 Alpaca 等具备了在不同领域进行语言生成和问答的能力。这些模型在医疗任务自动化和支持方面展现出了潜力,例如诊断、分诊、提供治疗信息、协助手术等。
有研究表明,LLMs 在完成医学许可考试方面表现出色,如 GPT-4 超过了美国医学许可考试官方练习材料的及格分数,ChatGPT 能生成更高质量且更具同理心的患者问题回复。然而,LLMs 的随机性质使其难以确保回答的准确性,可能会产生幻觉或虚构信息,在医疗应用中这可能带来严重后果。例如,在选择抗抑郁药物治疗的研究中,模型纳入的不太理想的临床建议,若在无专家监督的情况下常规使用,会带来重大风险。
随着 LLMs 在主流搜索引擎和对话界面中越来越普遍,并非总能实现专家监督。仅仅关注 LLMs 回答医学问题的准确性是不够的,研究公众对 AI 生成回复的感知、评估和受影响程度至关重要,因为非专家在缺乏即时医疗专业指导时,可能会信任 AI 生成的建议,过度依赖错误或不完整的回复可能导致治疗延误或不当,危及生命健康。
二、研究方法
- 数据集生成:从在线医疗平台 HealthTap 的问题论坛中检索了 150 个匿名医疗问题和医生的回复,这些问题涵盖预防和风险因素、病症和症状、诊断和测试、程序和手术、药物和治疗、恢复和健康六个医学领域,且分布均匀。使用 GPT-3 为每个医疗问题生成 AI 回复,并应用默认设置(模型:text-davinci-002,温度:0.7,最大长度:256)。由斯坦福大学和加州大学旧金山分校的四位普通内科医生对 AI 生成的回复进行评估,评估维度包括准确性、完整性和强度,根据评估结果将回复分为高准确性(两个或更少 “maybe” 评估且无 “no” 评估)和低准确性(多数评估为 “maybe” 或更差),并据此形成包含 30 个医生回复对、30 个高准确性 AI 回复对和 30 个低准确性 AI 回复对的新数据集。之后,又邀请六位医生在不知回复来源的情况下(盲评)对相同的医疗问题 - 回复对进行评估。
- 任务描述
- 实验 1:探究参与者能否区分 AI 生成的回复和医生的回复。100 名在线参与者(98 名通过筛选纳入结果)阅读 10 个随机选择的医疗问题 - 回复对(包括医生回复、高准确性 AI 回复和低准确性 AI 回复)后,在 1 - 5 分的李克特量表上评估对问题和回复的理解程度,判断回复来源,并对选择的来源给出 1 - 5 分的信心评估。
- 实验 2:评估参与者在不知回复来源时对 AI 系统生成回复与医生回复的评价。100 名参与者(96 名通过筛选纳入结果)阅读 10 个随机选择的医疗问题 - 回复对后,进行与实验 1 类似的评估,还需表明对回复有效性的看法,以及对回复的可信度、完整性和满意度、基于回复搜索更多信息的倾向、遵循回复中建议的倾向、因回复而寻求后续医疗关注的倾向等方面的李克特量表评估。
- 实验 3:研究参与者对特定回复类型是否存在偏见。100 名参与者(全部通过筛选纳入结果)阅读 10 个随机选择的医疗问题 - 回复对前,随机展示 “医生回复”“人工智能(AI)回复”“医生辅助 AI 回复” 三种标签之一,之后进行与实验 2 相同的评估。
- 语言分析:使用 Valence Aware Dictionary and Sentiment Reasoner(VADER)情感分析工具和基于 readability 库的 Flesch Reading Ease 可读性分数,对不同回复类型的语言特征(词数、情感和可读性)进行分析,并使用描述性统计和方差分析(ANOVA)处理结果。
- 参与者:通过 Prolific 网站招募参与者,要求其英语流利且年龄大于 18 岁,性别平衡。排除未完成完整研究、未通过筛选问题和注意力检查的参与者,最终实验 1 有 98 名参与者,实验 2 有 96 名参与者,实验 3 有 100 名参与者。
- 统计分析:对实验 1、2、3,使用带有受试者和问题 - 回复对交叉随机效应的线性混合效应模型分析数据,在 R(版本 4.3.1)中使用 lme4 包构建模型,以回复分数为因变量。通过似然比检验进行三种条件下平均回复分数是否相同的总体检验,使用 emmeans 包进行条件间的成对比较,并使用顺序 Bonferroni 方法调整 P 值以控制家族误差率。使用 psych 包计算组内相关系数。对于医生对 AI 生成回复的评估实验,使用简单 t 检验分析回复来源(AI 生成与医生)在不同组(盲评和非盲评的准确性评级等)内的差异,使用双向 ANOVA 检验分析不同测试类型(盲评与非盲评)和不同回复来源(AI 生成与医生)分数之间的差异。
三、研究结果
- 数据集基本情况:150 个 AI 生成的回复中,56.0% 达到高准确性,44.0% 为低准确性。
- 实验 1 结果
- 理解问题和回复:参与者对不同类别医疗问题的理解无显著差异,但对 AI 生成回复的理解评分显著高于医生回复,无论 AI 回复的准确性高低。
- 来源判断准确性:参与者判断医生回复、高准确性 AI 回复和低准确性 AI 回复来源的平均准确率均约为 50%,无显著差异,表明他们无法有效区分。
- 来源判断信心:参与者在判断正确和错误时,对三种回复类型的信心水平都较高,且正确和错误判断时的信心水平无显著差异。
- 语言分析:不同回复类型在词数、VADER 情感值和 Flesch Reading Ease 可读性分数方面均无显著差异。
- 实验 2 结果
- 理解问题和回复:参与者对不同类别医疗问题的理解无显著差异,但对 AI 生成回复的理解水平显著高于医生回复,高准确性 AI 回复的理解程度最高。
- 有效性:参与者认为高准确性 AI 生成的回复比医生回复更有效,低准确性 AI 生成的回复与医生回复表现相当。
- 可信度:参与者认为高准确性 AI 回复比医生回复更可信,低准确性 AI 生成的回复与医生回复评级相似。
- 完整性 / 满意度:参与者认为高准确性 AI 回复比医生回复更完整 / 满意,低准确性 AI 生成的回复与医生回复无显著差异。
- 寻求更多信息的倾向:参与者在这方面对医生回复、高准确性 AI 回复和低准确性 AI 回复无显著差异。
- 遵循建议的倾向:参与者在这方面对三种回复类型无显著差异。
- 寻求进一步医疗关注的倾向:参与者在这方面对三种回复类型无显著差异。
- 实验 3 结果:总体上,来源标签对参与者评估医疗回复影响不大,但对医生回复和高准确性 AI 回复的可信度评级有影响。当标签为 “医生回复” 时,参与者倾向于认为高准确性 AI 生成的回复更可信,但该标签对低准确性 AI 生成回复的可信度评级无影响。
- 医生评估实验结果:当专家不知回复来源时,对 AI 生成回复的准确性、强度和完整性评估无显著差异;当知道来源时,专家对 AI 生成回复在这三个指标上的评估显著降低。双向 ANOVA 检验证实,在评估准确性和完整性时,研究类型(盲评与非盲评)和回复来源(AI 与医生)之间存在显著关系,表明专家在知道回复来源时对 AI 生成回复存在偏见。
四、讨论
- 公众信任、风险和对 AI 生成医疗回复的认知:参与者难以有效区分医生提供的医疗建议和 AI 生成的医疗回复,甚至在 AI 回复准确性较低时也是如此。他们对 AI 生成回复的评价几乎与医生回复相当,甚至在多数指标上认为高准确性 AI 回复更好,低准确性 AI 回复在所有评估指标上的表现也平均高于医生回复。这种对 AI 回复的高度信任,尤其是对低准确性 AI 回复的信任,可能导致接受有害或无效的医疗建议,引发责任问题。
参与者在评估未标记来源的医疗回复时更倾向于 AI 生成的回复,但来源标签会显著改变评估结果。高准确性 AI 回复标记为医生回复时被认为更可信,而低准确性 AI 回复不受医生标签影响,这表明理想的评估需要可靠的来源和高准确性的模型。专家评估者在盲评时对 AI 回复的评价更高,说明即使是专业人员也可能存在偏见。
2. 研究结果对其他语言模型的适用性:研究使用的 GPT-3 是应用广泛的语言模型,尽管有更新的模型准确性更高,但由于这些模型具有相似的底层架构和训练方法,都存在产生准确和不准确医疗回复的可能性。因此,研究中关于非专家对 AI 生成医疗回复的感知和评估的发现,可推广到其他先进语言模型。随着模型的发展,研究中发现的问题,如公众区分能力和评估偏见,将持续存在且可能更加突出,未来的研究和开发应重视这些问题。
3. 研究局限性:本研究存在一些局限性。一是使用的是 GPT-3,而非更新版本的模型,即便旧模型的低准确性回复也有说服力,令人担忧。二是参与者通过在线平台招募,可能偏向技术熟练人群,且多为 18 - 49 岁,参与者评估的是假设情景,缺乏个人投入。三是研究仅考察单个问题 - 回复对,缺乏真实临床场景中的背景和随访,未来研究应探索这些因素对 AI 在医疗问答中作用的影响。
4. 更广泛的影响:本研究揭示了在医疗响应应用中设计和部署 LLMs 和聊天机器人等技术时,需要从外行和医生的角度综合考虑多方面因素。现有关于 LLMs 在医学领域的研究多关注医生视角和回复准确性,而本研究发现医生认为低准确性的回复对公众仍有说服力,这凸显了在无医生监督下向公众发布 AI 生成医疗回复的危险性。
专家和外行都存在固有偏见,外行更信任标记为医生的回复,专家对 AI 生成回复可能存在偏见。因此,成功部署医疗 AI 系统需要考虑来源透明度和减轻偏见,不应仅关注准确性,而应将 AI 作为辅助工具,并对信息进行批判性评估。
研究还发现,参与者认为 AI 生成的回复,尤其是高准确性的回复,在所有指标上与医生回复相当或更好,但对标记为医生的回复信任度更高。这形成了一个矛盾:AI 回复虽有吸引力且看似可信,但潜在的不准确可能导致严重后果。这表明将 AI 整合到医疗信息传递中需要更细致的方法,医疗服务提供者应制定 AI 集成的最佳实践,明确医生在 AI 生成信息传递中的参与,建立评估医生 - AI 协作的标准化方法。