
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:减轻医疗人工智能中的幻觉现象:基于证据的策略的系统评价
《BMC Health Services Research》:Mitigating hallucinations in healthcare AI: a systematic review of evidence-based strategies
【字体: 大 中 小 】 时间:2026年06月08日 来源:BMC Health Services Research 3
编辑推荐:
摘要 背景 大型语言模型(LLMs)越来越多地被集成到医疗应用中,但它们产生幻觉的倾向——即生成事实错误但看似合理的输出——对安全性和信任度构成了风险。在临床环境中,这些错误包括伪造的引用、不正确的治疗陈述以及对患者情况的错误总结,每一项都可能导致不安
大型语言模型(LLMs)越来越多地被集成到医疗应用中,但它们产生幻觉的倾向——即生成事实错误但看似合理的输出——对安全性和信任度构成了风险。在临床环境中,这些错误包括伪造的引用、不正确的治疗陈述以及对患者情况的错误总结,每一项都可能导致不安全的决策。
我们根据PRISMA系统评价指南,回顾了2019年1月至2025年4月期间评估基于LLM的医疗AI系统中幻觉缓解策略的实证研究。我们使用预定义的术语在PubMed、IEEE Xplore、ACM数字图书馆、Scopus、Web of Science和arXiv上进行了搜索。符合条件的研究通过改编的Joanna Briggs研究所检查表进行了方法学质量的评估。
在检索到的427项研究中,有44项符合纳入标准。我们确定了七种主要的策略类别:(1)检索增强生成(RAG),(2)知识图谱集成,(3)自我反思框架,(4)专用评估指标,(5)人类参与(HITL)方法,(6)专用训练技术,以及(7)红队测试。评估最频繁的策略是RAG(18/44项)、知识图谱(12/44项)和自我反思或专用训练(各10/44项)。RAG方法减少了30-50%的幻觉;HITL方法减少了高达95%的幻觉,但存在可扩展性问题;而红队测试发现了其他方法未能发现的新漏洞,跨学科团队在幻觉检测方面表现出20-40%的改进。结合多种方法(例如检索加验证)通常比单一方法更有效。
在医疗AI中缓解幻觉需要结合技术和以人为中心的保护措施的综合方法。我们提出了一种缓解策略的分类体系、实施考虑因素以及可复制的工作流程,以促进在临床环境中的更安全部署。
大型语言模型(LLMs)越来越多地被集成到医疗应用中,但它们产生幻觉的倾向——即生成事实错误但看似合理的输出——对安全性和信任度构成了风险。在临床环境中,这些错误包括伪造的引用、不正确的治疗陈述以及对患者情况的错误总结,每一项都可能导致不安全的决策。
我们根据PRISMA系统评价指南,回顾了2019年1月至2025年4月期间评估基于LLM的医疗AI系统中幻觉缓解策略的实证研究。我们使用预定义的术语在PubMed、IEEE Xplore、ACM数字图书馆、Scopus、Web of Science和arXiv上进行了搜索。符合条件的研究通过改编的Joanna Briggs研究所检查表进行了方法学质量的评估。
在检索到的427项研究中,有44项符合纳入标准。我们确定了七种主要的策略类别:(1)检索增强生成(RAG),(2)知识图谱集成,(3)自我反思框架,(4)专用评估指标,(5)人类参与(HITL)方法,(6)专用训练技术,以及(7)红队测试。评估最频繁的策略是RAG(18/44项)、知识图谱(12/44项)和自我反思或专用训练(各10/44项)。RAG方法减少了30-50%的幻觉;HITL方法减少了高达95%的幻觉,但存在可扩展性问题;而红队测试发现了其他方法未能发现的新漏洞,跨学科团队在幻觉检测方面表现出20-40%的改进。结合多种方法(例如检索加验证)通常比单一方法更有效。
在医疗AI中缓解幻觉需要结合技术和以人为中心的保护措施的综合方法。我们提出了一种缓解策略的分类体系、实施考虑因素以及可复制的工作流程,以促进在临床环境中的更安全部署。