大型语言模型在临床决策支持中对抗性幻觉攻击的脆弱性:多模型验证与缓解策略研究

【字体: 时间:2025年08月03日 来源:Communications Medicine 6.3

编辑推荐:

  本研究针对大型语言模型(LLMs)在医疗场景中易受对抗性幻觉攻击的问题,通过构建300例含虚构细节的临床案例,系统评估了6种LLMs(包括GPT-4o、Distilled-DeepSeek等)的脆弱性。研究发现模型平均幻觉率高达65.9%,其中GPT-4o表现最佳(50-53%),而Distilled-DeepSeek最差(82.7%)。通过设计特异性缓解提示可将错误率降低至44.2%,但温度调节无效。该研究为临床AI应用的风险防控提供了重要证据,发表于《Communications Medicine》。

  

在医疗人工智能快速发展的今天,大型语言模型(LLMs)如GPT-4o等已能生成临床摘要、解释医学知识,甚至辅助诊断决策。然而这些"黑箱"系统存在致命缺陷——会虚构医学事实(称为"幻觉"),当输入包含错误信息时,模型可能将错就错地生成更多虚假内容。这种"对抗性幻觉"可能被恶意利用,例如传播疫苗谣言或伪造检验结果,对医疗安全构成严重威胁。

为量化这一风险,来自美国西奈山医疗中心(The Windreich Department of Artificial Intelligence and Human Health, Mount Sinai Medical Center)的研究团队设计了一项创新实验:创建300个包含虚构检验项目(如"血清神经抑制素")、体征(如"心脏螺旋征")或疾病(如"Faulkenstein综合征")的临床案例,以测试不同LLMs的脆弱性。研究采用自动化分类管道,定义"幻觉"为模型对虚构细节的任何延伸阐述,结果发现所有测试模型都表现出高度脆弱性,相关成果发表在《Communications Medicine》上。

研究团队采用三项关键技术方法:(1)构建300对长短版本(50-100词)的标准化临床案例,均含单一虚构元素;(2)测试6种LLMs在默认设置、缓解提示和零温度条件下的5,400次响应;(3)开发自动化分类系统(经200例人工验证100%准确)量化幻觉率,并采用混合效应逻辑回归分析影响因素。

主要结果

  1. 总体幻觉率:所有模型在默认提示下平均幻觉率达65.9%,其中GPT-4o最低(50-53%),Distilled-DeepSeek-R1最高(82.7%)。短案例幻觉率(67.6%)略高于长案例(64.1%)。

  2. 缓解策略效果:特异性提示(要求"仅使用临床验证信息")使总体幻觉率降至44.2%(p<0.001),其中GPT-4o降至23%。但温度归零(66.5%)无显著改善。

  3. 模型差异:与GPT-4o相比,Phi-4幻觉风险高7.12倍,Gemma-2-27b-it高3.11倍。值得注意的是,同参数量的Distilled-DeepSeek比其基础模型LLaMA-3.3-70B表现更差,提示蒸馏过程可能放大幻觉风险。

  4. 公共卫生测试:在疫苗接种与自闭症等5个争议话题中,模型大多能正确反驳谣言,但GPT-4o在"自然免疫vs疫苗接种"议题中两次错误支持前者优势。

这项研究揭示了LLMs在医疗场景中的系统性风险:即使最佳模型GPT-4o也有50%概率被"诱导"生成虚假医学内容。虽然提示工程能降低风险,但无法完全消除——这与既往研究发现的LLMs"确认偏误"(sycophancy)特性一致。作者特别警告,临床场景中的"复制粘贴"错误或恶意信息可能通过LLMs放大传播,建议采取三重防护:(1)优先选用GPT-4o等抗幻觉较强模型;(2)强制使用验证性提示模板;(3)建立人工审核机制。该研究为医疗AI安全部署提供了首个系统性对抗测试框架,其自动化评估管道可适配未来新型模型的风险监测。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号