
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能在复杂医疗场景中的思维链推理:通过模型的固有特性来减轻认知偏差
《BMJ Quality & Safety》:Artificial intelligence chain-of-thought reasoning in nuanced medical scenarios: mitigation of cognitive biases through model intransigence
【字体: 大 中 小 】 时间:2025年11月27日 来源:BMJ Quality & Safety 6.5
编辑推荐:
人工智能大型语言模型在临床决策中可能存在人类式认知偏差,本研究测试了DeepSeek、OpenAI和Google的链式推理LLMs在10个医疗场景中的表现。结果显示,尽管部分偏差得到缓解,但仍有后见之明、假想替代等偏差存在,模型响应与医生平均差异显著,强调临床医生需审慎使用AI工具。
背景 人工智能大型语言模型(LLMs)越来越多地被用于辅助临床决策,但在面对复杂的医疗选择时,有时会表现出类似人类的认知偏差。
方法 我们测试了新的基于思维链的推理LLMs是否能够减轻医生所表现出的认知偏差。我们向DeepSeek、OpenAI和Google发布的模型展示了10个医疗场景。每个场景都提供了两个版本,这两个版本在某个特定方面存在差异(例如,手术的描述方式可能是基于生存率还是死亡率统计数据)。模型给出的回答被分类,偏差的程度通过不同版本回答之间的绝对差异来衡量。模型在观点上的固执程度(也称为教条主义或僵化)通过香农熵来衡量。每个场景中的偏差程度则是通过将模型的平均回答与实际执业医生的平均回答(n=2507)进行比较来确定的。
结果 DeepSeek-R1通过生成绝对的、非妥协的“全有或全无”类型的回答,减轻了执业医生中观察到的10种认知偏差中的6种。仍然存在的4种偏差分别是:事后归因谬误(34% vs 0%,p<0.001)、诱饵效应(44% vs 5%,p<0.001)、奥卡姆剃刀谬误(100% vs 0%,p<0.001)以及事后偏见(56% vs 0%,p<0.001)。在每个场景中,模型的平均回答都与执业医生的平均回答存在显著差异(所有情况的p值均<0.001)。在OpenAI和Google的模型中也观察到了类似的持续存在的特定偏差、非妥协的回答以及与执业医生回答的显著差异。
结论 一些认知偏差在基于思维链的推理LLMs中仍然存在,而且这些模型倾向于给出非妥协性的建议。这些发现强调了临床医生在解读基于思维链的人工智能LLMs的医疗建议时需要具备广泛的思维、尊重多样性,并保持警惕性的重要性。
生物通微信公众号
知名企业招聘