编辑推荐:
大语言模型(LLMs)在临床决策支持中表现不一,为评估其实际效用,研究人员对比了 o1、Claude-3.5-Sonnet、Llama-3.2–70B 与人类专家在急诊内科的表现。结果显示 o1 与专家相当,其他模型稍逊。这为 LLMs 用于急诊医疗提供参考。
在医疗领域,大语言模型(LLMs)和多模态生成人工智能系统正逐渐崭露头角,有望重塑医疗行业格局。想象一下,医生在忙碌的急诊室里,面对复杂的病情,要是有智能助手能迅速给出诊断建议和治疗方案,那该多好。LLMs 似乎就有这样的潜力,它能在医疗教育、临床决策支持以及医疗管理等方面大显身手。经过大量数据训练的前沿 LLMs,在各类测试中表现出色,在多领域理解(MMLU)基准测试里,一些顶尖模型得分逼近人类专家。
然而,LLMs 在临床决策支持方面的表现却参差不齐。有的研究表明,像 Gemini Advanced 在临床决策测试中能达到 81.87% 的准确率;ChatGPT 在头颈部癌症治疗建议评估中,虽有高敏感性和整体准确性,但在初级治疗场景也存在失误;还有研究发现 GPT-4 在神经影像临床决策支持中表现优异。但也有不少反面案例,部分开源 LLMs 在解读真实患者病例时,难以遵循诊断和治疗指南,处理基础任务也困难重重;而且研究还发现,即便 LLMs 在独立诊断准确率上超过医生,可医生使用 LLMs 时,诊断表现并未比使用传统资源更好,这凸显了人工智能能力与临床有效融合之间的鸿沟。更关键的是,目前对 LLMs 的研究大多未基于真实患者数据,这使得其在实际应用中的效果难以确定。与此同时,大推理模型(LRMs)如 OpenAI 的 o1 模型出现,这类模型在推理任务上性能卓越,却还未在真实医疗任务中接受检验。
为了填补这些研究空白,克罗地亚斯普利特大学医院(University Hospital of Split)的研究人员挺身而出。他们开展了一项前瞻性对比研究,旨在全面评估当前顶尖的 LLMs(Claude-3.5 Sonnet、Llama-3.2–70b 以及 LRM 的 o1 模型)在急诊内科临床决策支持中的表现。研究选用真实患者病例,从两个关键角度进行评估:一是根据患者初始症状、病史推荐诊断测试的合理性;二是在获取实际诊断测试结果后,评估诊断结论和治疗建议的准确性。这一研究成果发表在《Computers in Biology and Medicine》杂志上,为 LLMs 在急诊医疗中的应用提供了重要参考。
在研究方法上,研究人员收集了 2024 年 6 月 10 日至 9 月 30 日期间斯普利特大学医院急诊内科病房的 73 例匿名患者病例。由两位独立的内科专家对 LLMs 生成的报告进行两步评估,且专家不知晓模型身份。评估采用李克特量表(Likert scales),并运用弗里德曼(Friedman)检验和威尔科克森符号秩和(Wilcoxon signed-rank)检验进行统计分析,同时以人类撰写的报告作为对照。
研究结果方面:
- 综合评分:o1 模型最终平均评分(3.63)与人类医生(3.67)在统计学上无显著差异(p = 0.62) ,Claude-3.5-Sonnet(3.38)和 Llama-3.2–70B(3.23)得分则显著低于 o1(p < 0.01),主要原因是治疗计划错误和非药物建议失误。
- 诊断和决策准确性:三个模型在最终诊断和患者入院决策上的准确率均≥90%。o1 模型对所有异常实验室值的分类准确率达 100%,Claude-3.5-Sonnet 和 Llama-3.2–70B 分别为 99.5% 和 99%,存在少量误差。
研究结论和讨论部分意义重大。o1 模型在推荐诊断测试和治疗真实急诊内科病例方面与人类专家表现相当,这意味着它具备临床整合的潜力,短期内可用于分诊支持、复杂病例的二次诊断建议以及病历审查时的错误标记等。而其他测试的顶尖 LLMs 未达到这一标准。该研究表明,先进的语言模型在临床决策支持方面潜力巨大,但不同模型表现差异明显。这一成果不仅为临床医生在考虑使用 LLMs 辅助决策时提供了有力依据,也为后续 LLMs 和 LRMs 的研究指明了方向,推动人工智能与医疗领域更深入、更有效的融合,有望在未来改善急诊医疗服务质量,挽救更多患者生命。