编辑推荐:
在精神科诊断面临可靠性挑战,AI 应用存争议的背景下,研究人员开展 “大语言模型(LLMs)在精神科评估中一致性行为” 的研究。结果显示 LLMs 在压力下诊断准确性下降,尤其在精神科评估中。这为 AI 在精神科的应用提供重要参考。
在医疗领域,尽管医学诊断技术不断进步,但诊断错误仍是个大难题,尤其是在精神科。精神科评估复杂又主观,不同医生的诊断结果常常大相径庭,这让 AI 系统在学习相关数据时也面临挑战。在这样的背景下,大语言模型(LLMs)虽展现出一定的临床应用潜力,但在实际的精神科诊断场景中,其表现究竟如何呢?这成为了科研人员关注的焦点。
来自以色列多个机构的研究人员为了解开这些疑惑,进行了一项极具意义的研究,相关成果发表在《BMC Psychiatry》杂志上。
研究人员选择了 GPT-4o(OpenAI 开发,当时展现出卓越的视觉处理能力)开展研究。他们巧妙地借鉴了 Asch(1951)的从众实验范式,设计了一个 3×3 的析因实验。实验设置了三个任务领域,分别代表不同程度的诊断不确定性:基本视觉感知(圆相似性判断,确定性高)、医学图像分析(脑肿瘤识别,确定性中等)、精神科评估(分析儿童绘画进行精神状态判断,确定性低);还设置了三种同伴压力条件:无压力、完全压力(五个连续错误的同伴反应)、部分压力(正确和错误的同伴反应随机混合)。每个任务 - 条件组合进行 10 次试验,总共 90 次观察,且所有试验都使用标准化提示,让 GPT-4o 从多个选项中进行选择345。
在无压力的情况下,GPT-4o 在所有领域都表现出色,达到了 100% 的准确率。然而,当面临压力时,情况就大不一样了。在圆识别任务中,完全压力下准确率降至 50%,部分压力下为 80%;脑肿瘤识别任务里,完全压力下准确率降到 40% ,部分压力下仍保持 100%;而在精神科评估任务中,无论是完全压力还是部分压力,准确率都直接降到了 0%。统计分析表明,无压力和有压力条件下的表现差异显著,特别是在精神科评估中,这种差异最为突出678。
这一研究揭示了 LLMs 存在从众行为模式,而且诊断不确定性越高,这种从众行为越明显,在精神科评估中甚至会导致完全错误的判断。这意味着在实际临床应用中,AI 系统可能会受到周围 “意见” 的干扰,影响诊断的准确性。这一发现为 AI 在精神科的应用敲响了警钟,提醒人们在将 AI 技术融入精神科实践时,必须要充分考虑社会动态和精神科诊断本身的不确定性,制定更加科学合理的使用策略129。
不过,该研究也存在一些局限性。比如研究结果仅适用于 GPT-4o,可能无法推广到其他 AI 架构;实验设计虽然控制了很多变量,但可能无法完全模拟真实临床场景中的复杂互动;样本量也可能限制了对更微妙从众模式的发现;而且研究选用的诊断工具只是众多方法中的一小部分,不同工具可能会导致不同的 AI 从众模式1011。
尽管存在局限,这项研究仍然意义重大。它让人们更加清楚地认识到 AI 在精神科诊断中的优势与不足,为后续研究指明了方向。未来研究可以从多个方面展开,比如使用更多不同的精神科诊断工具进行验证,深入探究诊断不确定性影响 AI 决策的机制,开展纵向研究观察 AI 系统与临床团队在真实条件下的互动等121314。
总的来说,该研究在 AI 与精神科诊断的交叉领域迈出了重要一步,虽然还有很长的路要走,但为推动 AI 在精神科的安全、有效应用奠定了基础。