综述：减轻医疗人工智能中的幻觉现象：基于证据的策略的系统评价

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BMC Health Services Research》：Mitigating hallucinations in healthcare AI: a systematic review of evidence-based strategies

【字体：大中小】 时间：2026年06月08日 来源：BMC Health Services Research 3

编辑推荐：

　　摘要背景大型语言模型（LLMs）越来越多地被集成到医疗应用中，但它们产生幻觉的倾向——即生成事实错误但看似合理的输出——对安全性和信任度构成了风险。在临床环境中，这些错误包括伪造的引用、不正确的治疗陈述以及对患者情况的错误总结，每一项都可能导致不安

摘要

背景

大型语言模型（LLMs）越来越多地被集成到医疗应用中，但它们产生幻觉的倾向——即生成事实错误但看似合理的输出——对安全性和信任度构成了风险。在临床环境中，这些错误包括伪造的引用、不正确的治疗陈述以及对患者情况的错误总结，每一项都可能导致不安全的决策。

方法

我们根据PRISMA系统评价指南，回顾了2019年1月至2025年4月期间评估基于LLM的医疗AI系统中幻觉缓解策略的实证研究。我们使用预定义的术语在PubMed、IEEE Xplore、ACM数字图书馆、Scopus、Web of Science和arXiv上进行了搜索。符合条件的研究通过改编的Joanna Briggs研究所检查表进行了方法学质量的评估。

结果

在检索到的427项研究中，有44项符合纳入标准。我们确定了七种主要的策略类别：（1）检索增强生成（RAG），（2）知识图谱集成，（3）自我反思框架，（4）专用评估指标，（5）人类参与（HITL）方法，（6）专用训练技术，以及（7）红队测试。评估最频繁的策略是RAG（18/44项）、知识图谱（12/44项）和自我反思或专用训练（各10/44项）。RAG方法减少了30-50%的幻觉；HITL方法减少了高达95%的幻觉，但存在可扩展性问题；而红队测试发现了其他方法未能发现的新漏洞，跨学科团队在幻觉检测方面表现出20-40%的改进。结合多种方法（例如检索加验证）通常比单一方法更有效。

结论

在医疗AI中缓解幻觉需要结合技术和以人为中心的保护措施的综合方法。我们提出了一种缓解策略的分类体系、实施考虑因素以及可复制的工作流程，以促进在临床环境中的更安全部署。

背景

大型语言模型（LLMs）越来越多地被集成到医疗应用中，但它们产生幻觉的倾向——即生成事实错误但看似合理的输出——对安全性和信任度构成了风险。在临床环境中，这些错误包括伪造的引用、不正确的治疗陈述以及对患者情况的错误总结，每一项都可能导致不安全的决策。

方法

我们根据PRISMA系统评价指南，回顾了2019年1月至2025年4月期间评估基于LLM的医疗AI系统中幻觉缓解策略的实证研究。我们使用预定义的术语在PubMed、IEEE Xplore、ACM数字图书馆、Scopus、Web of Science和arXiv上进行了搜索。符合条件的研究通过改编的Joanna Briggs研究所检查表进行了方法学质量的评估。

结果

在检索到的427项研究中，有44项符合纳入标准。我们确定了七种主要的策略类别：（1）检索增强生成（RAG），（2）知识图谱集成，（3）自我反思框架，（4）专用评估指标，（5）人类参与（HITL）方法，（6）专用训练技术，以及（7）红队测试。评估最频繁的策略是RAG（18/44项）、知识图谱（12/44项）和自我反思或专用训练（各10/44项）。RAG方法减少了30-50%的幻觉；HITL方法减少了高达95%的幻觉，但存在可扩展性问题；而红队测试发现了其他方法未能发现的新漏洞，跨学科团队在幻觉检测方面表现出20-40%的改进。结合多种方法（例如检索加验证）通常比单一方法更有效。

结论

在医疗AI中缓解幻觉需要结合技术和以人为中心的保护措施的综合方法。我们提出了一种缓解策略的分类体系、实施考虑因素以及可复制的工作流程，以促进在临床环境中的更安全部署。

联系信箱：

粤ICP备09063491号

摘要

背景

方法

结果

结论

背景

方法

结果

结论

热点排行