《Journal of Neurorestoratology》:Solving gaps in clinical reasoning is the cure to neurophobia in artificial intelligence
编辑推荐:
本研究通过对比分析发现,提供蒸馏化临床综合征可显著提升GPT-4o在神经科诊断中的准确率(76%→97%),证实临床推理对AI诊断质量的关键作用。
伊桑·梅尔策(Ethan Meltzer)
美国德克萨斯大学奥斯汀分校戴尔医学院(University of Texas at Austin Dell Medical School, USA)
摘要
背景与目的:本研究是一项观察性研究,旨在通过分析先前发表的病例来评估人工智能聊天机器人的临床推理能力。研究的主要目的是探讨在临床实践中,神经科病例对大型语言模型(LLMs)的独特挑战,尤其是这些模型在处理人类临床推理错误时的表现。
方法:本研究通过29个病例测试了基于GPT-4o的人工智能聊天机器人在生成鉴别诊断方面的准确性。这些病例以两种形式呈现:一种是包含所有详细信息的完整病历,另一种则是通过临床推理提取关键特征(如症状出现的速度和病变位置)后的简化版病历。主要比较了GPT-4o在获得完整病历信息和简化病历信息时的诊断准确性。
结果:在所有29个病例中,无论提供哪种形式的病历,GPT-4o的诊断准确性均相当或更高。当提供简化病历信息时,其总体准确率从约76%提高到了97%;且在每种简化病历情况下,正确诊断在所有鉴别诊断选项中的排名均不低于提供完整病历时的结果。
讨论:我们的研究表明,临床推理仍然是影响人工智能诊断准确性的主要因素,这一点在人类受训者中同样存在。将训练重点不仅放在知识上,还放在临床推理能力上,有望显著提升机器语言模型和学习者的表现。
引言
几十年来,学者们一直强调临床推理在准确诊断中的重要性[1]。最近的研究表明,人工智能在多个医学领域具有作为诊断工具的强大潜力,但其在处理涉及复杂临床推理场景时的表现仍存在疑问[[2], [3], [4], [5], [6], [7], [8], [9], [10]]。人工智能是否需要具备临床推理能力才能成功进行诊断?它是否也会像神经科医生一样犯类似的临床推理错误?理解人工智能的诊断机制对于改进其性能并将其整合到临床实践中至关重要。
我们之前的研究表明,一个开源的人工智能聊天机器人(GPT-4)在处理复杂的神经科病例时诊断准确性有限,且其诊断能力与其识别病变位置的能力无关[8]。我们观察到,GPT-4的表现类似于初学者,它过度依赖影像学或实验室检查结果等辅助数据,而忽视了病史和神经系统检查的重要性。
神经科的一个独特技能是识别临床综合征,以便为鉴别诊断提供依据。目前最广泛接受的框架将临床综合征定义为症状出现/进展的速度以及病变在体内的位置[11,12]。我们认为,神经科教育的一个挑战在于如何将床边收集的病史和检查结果转化为临床综合征,因为对原始临床数据的解读依赖于临床推理能力,而这通常是医学院或住院医师培训课程中未明确教授的内容[[13], [14], [15], [16]]。
由于生成临床综合征需要更高级的临床推理能力,我们假设GPT-4o在提供简化病历信息时诊断准确性会更高;而当提供完整病历信息时出现的错误则反映了其不足之处。床边收集的数据解读仍是神经科实践中最具挑战性的环节,对其在医学教育中的重要性也值得重点关注。我们可以利用GPT-4o来说明临床推理在现代诊断准确性中的关键作用。
方法部分
方法
我们使用了29个先前已发表的匿名临床病例,这些病例曾用于评估GPT-4o的性能。每个病例都代表一种新的疾病表现形式。通过病史和检查结果,我们可以确定症状出现的速度、病变的位置以及患者的临床推理过程。尽管GPT-4o能够解读影像学资料,但生成临床综合征并不需要实验室检测结果或神经影像数据。
结果
见表1,比较了GPT-4o在提供完整病历信息和简化病历信息时的诊断准确性。在29个病例中,GPT-4o在提供完整病历信息时正确识别前五种鉴别诊断的准确率为75.9%,而在提供简化病历信息时这一准确率提升至96.6%。其中17个病例(58.6%)中,GPT-4o能够准确识别出最可能的诊断。
讨论
我们的数据表明,临床推理对于提高神经科诊断的准确性至关重要。神经科中的临床综合征可以概括为将病史和检查结果转化为几个基本要素:症状发展的速度或节奏、病变在神经系统中的位置,以及症状出现的环境或背景(即患者或具体情境)。这一过程依赖于临床推理能力,而这种能力往往在医学教育中并未得到充分重视。
作者贡献声明
伊桑·梅尔策(Ethan Meltzer):概念构思、数据整理、正式分析、研究设计、方法论制定、初稿撰写、审稿与编辑。