将专家知识整合到大型语言模型中,可提升其在精神病学推理和诊断方面的性能

《Psychiatry Research》:Integrating Expert Knowledge into Large Language Models Improves Performance for Psychiatric Reasoning and Diagnosis

【字体: 时间:2025年11月17日 来源:Psychiatry Research 3.9

编辑推荐:

  精神疾病诊断中,GPT-3.5、GPT-4和GPT-4o三种大语言模型(LLMs)的直接提示方法显示较高敏感性(76.7%)但PPV仅40.4%。通过整合专家决策树,PPV提升至65.3%,F1值显著提高,灵敏度下降幅度较小(70.9%)。研究证实,结合临床决策树可优化LLMs在精神病学诊断中的准确性和效率,减少过度诊断。

  在过去的十年中,人工智能(AI)技术的快速发展推动了医疗保健领域的重大创新,涵盖了多个功能领域和临床方向。其中,自然语言处理(NLP)技术的进步为处理非结构化文本数据提供了新的可能性,特别是在行为健康领域。行为健康领域的一个历史挑战在于如何有效地处理临床笔记、访谈记录等非结构化文本,而大语言模型(LLMs)的出现为解决这一问题带来了新的希望。LLMs是专为自然语言任务设计的文本到文本预测模型,它们通过在大规模的非结构化文本数据集上进行训练,展现了在自然语言理解和处理方面的巨大潜力。在行为健康领域,LLMs已被用于文档创建、决策支持、医生辅助以及自主干预代理等多个应用场景。

尽管LLMs在自然语言处理方面表现出色,但它们在实际应用中仍面临一些挑战。其中,一个显著的问题是模型可能生成危险或有害的响应,这与未经过滤的基线模型有关。因此,如何提升LLMs在复杂多步骤推理任务中的表现成为了一个重要的研究方向。为此,研究人员探索了多种方法,包括链式推理、隐式推理、自我反思与验证、结构化提示工程、多智能体推理等。这些方法旨在增强模型的推理能力,使其更符合临床实践的需求。

为了评估LLMs在行为健康诊断中的表现,以及如何通过整合专家推导的推理来提升其性能,本研究采用了一种系统的方法。研究人员从《DSM-5-TR临床案例》一书中提取了临床案例片段及其相关诊断,并从《DSM-5-TR鉴别诊断手册》中获取了诊断决策树,并对其进行优化以适应LLM的使用需求。随后,三种常用的LLMs(GPT-3.5、GPT-4和GPT-4o)被用来对这些案例片段进行诊断预测,分别通过直接提示和使用优化后的决策树两种方式。这些预测结果与正确的诊断进行了比较,使用了正预测值(PPV)、灵敏度和F1统计量等指标来衡量模型的性能。

研究结果表明,当直接提示LLMs进行诊断预测时,表现最佳的模型(gpt-4o)在灵敏度方面达到了76.7%,而在PPV方面则为40.4%。当使用优化后的决策树进行预测时,PPV显著提高至65.3%,而灵敏度则略有下降,但并未出现显著变化。在所有实验中,使用决策树显著提高了PPV,并在5/6次实验中显著提高了F1统计量,而在4/6次实验中显著降低了灵敏度。这表明,虽然决策树的引入有助于减少误诊,但同时也对诊断的全面性产生了一定的影响。

在本研究中,研究人员发现,直接提示LLMs进行诊断预测虽然能够产生大量的正确诊断,但同时也伴随着较高的误诊率。这提示我们在使用LLMs进行诊断时,需要特别关注其在临床判断方面的局限性。PPV的提高意味着模型在预测诊断时更加精准,减少了不必要的诊断,这在临床实践中尤为重要。因为,如果模型错误地预测了诊断,可能会对患者造成不必要的焦虑或过度治疗。因此,提高PPV对于确保诊断的准确性至关重要。

此外,研究还发现,LLMs在直接预测诊断时,虽然能够识别出大部分正确的诊断,但也会生成一些与DSM-5-TR标准不符的诊断,这些诊断可以分为两类:医学特征和精神健康特征。医学特征可能源于模型在处理文本时的误解,而精神健康特征则可能涉及一些未被DSM-5-TR涵盖的概念,如产后精神病或产后抑郁等。这些结果反映了模型在区分DSM-5-TR诊断与其他相关概念方面的局限性,这可能是由于模型内部知识的不确定性所致。

为了进一步提升LLMs的诊断能力,研究人员尝试将专家制定的决策树整合到模型的推理过程中。这种决策树的使用不仅帮助模型更准确地应用诊断标准,还通过一系列的提示策略优化了模型的输出。例如,通过细化诊断标准,增加对特定术语的定义,以及调整诊断流程,研究人员显著改善了模型的性能。具体而言,使用决策树的模型在PPV和F1统计量方面表现更优,尽管灵敏度有所下降。这一发现表明,整合专家知识能够有效提升模型的诊断准确性,特别是在减少误诊方面。

然而,研究也指出了几个潜在的限制和伦理问题。首先,使用的案例片段来源于《DSM-5-TR临床案例》一书,这些案例并非专门为AI应用设计,因此可能存在一定的偏差。其次,为了便于比较,研究人员采用了半自动化的诊断简化系统,这可能掩盖了模型输出与作者指定诊断之间的差异。此外,由于缺乏真实的阴性案例,研究人员在评估模型在不同情境下的表现时受到了一定的限制。这些因素都可能影响研究结果的普适性和准确性。

考虑到上述局限性,研究人员认为,LLMs在行为健康领域的应用应当以辅助而非替代人类临床判断为目标。专家知识和共识在构建基于生成式人工智能的半自动化和自动化系统中仍然具有不可替代的重要性。通过将专家推导的推理过程与LLMs结合,可以提高系统处理非结构化文本的能力,增强推荐的可解释性,并在一定程度上提升系统性能。

未来的研究可以进一步探索LLMs在其他类型的心理健康推理中的应用,例如在生成适当的DSM分类符、区分不同类型的神经认知障碍或物质使用障碍等方面。此外,使用更大的数据集、包括阴性案例的临床数据,以及更广泛地考察超参数、模型选择、提示策略等,都有助于更好地理解如何在这些应用中有效整合LLMs。同时,还需要进一步探讨LLMs在行为健康领域的伦理、法律和隐私问题,以确保这些技术能够最大化其潜在的益处并减少相关风险。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号