临床大型语言模型中的认知偏差：风险、机制与缓解策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月12日 来源：npj Digital Medicine 12.4

编辑推荐：

　　本期推荐：研究人员针对临床决策中LLM（大型语言模型）可能继承并放大认知偏差的问题开展研究，揭示了数据、模型和部署环节的五大核心偏差（如Suggestibility Bias、Anchoring Bias），同时提出通过自反思（Self-reflection）、情境推理（Contextual reasoning）等技术手段实现偏差检测与修正，为AI医疗工具的公平性优化提供新思路。

在医疗领域，每年因认知偏差导致的误诊和医疗错误造成数万例本可避免的死亡。当大型语言模型（Large Language Models, LLM）进入临床决策流程时，这些系统不仅可能继承人类医生的认知偏差，还可能通过自动化放大其危害。哈佛医学院（Harvard Medical School）等机构的研究团队在《npj Digital Medicine》发表的研究，首次系统揭示了LLM在医疗场景中面临的五大认知偏差陷阱，并探索了利用AI自身特性对抗偏差的创新路径。

研究采用多维度分析方法：通过标准化临床案例测试商业LLM（如GPT-4）的偏差表现；设计序列提示框架验证自反思对锚定偏差（Anchoring Bias）的修正效果；利用自然语言处理技术分析电子病历中的框架偏差（Framing Bias）与社会人口学关联。

关键研究结果

数据与模型层面的偏差机制
训练数据的不平衡（如种族调整公式的过度代表）导致可用性偏差（Availability Bias），使LLM优先推荐过时但高频出现的临床规则。实验显示，4款主流LLM均错误沿用已废止的种族相关eGFR估算公式。
人机交互中的偏差放大
通过模拟临床决策实验发现，当LLM输出与医生初步判断一致时（即使双方均错误），确认偏差（Confirmation Bias）会使错误诊断接受率提升3倍。病理学实验中，专家更倾向于保留与AI一致但错误的肿瘤细胞比例评估。
缓解策略的有效性验证

结构化自反思流程使GPT-4在疑难病例诊断准确率提升22%。要求模型先总结关键发现再生成鉴别诊断的二步提示法，显著降低初始印象的锚定效应。情境分析技术可自动识别病历中针对少数群体的 stigmatizing language（污名化语言）。

该研究开创性地提出"认知偏差-技术特性"双维度分析框架，既警示LLM可能加剧现有医疗不平等，又揭示其通过实时审计追踪（Reasoning Trace）和动态修正超越人类静态认知局限的潜力。研究强调，未来医疗AI开发需建立包含多样性专家组的持续监督机制，并将偏差检测模块嵌入临床工作流核心环节。这些发现为正在制定的AI医疗监管政策提供了关键实证依据，推动从单纯追求准确率向"偏差感知型"智能系统的范式转变。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号