
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在1933年欧洲病例报告中对开源法学硕士的诊断性能进行基准测试
【字体: 大 中 小 】 时间:2025年02月13日 来源:npj Digital Medicine 12.4
编辑推荐:
在当今医疗领域,人工智能技术正以前所未有的速度发展,大语言模型(LLMs)的出现为医疗诊断带来了新的机遇与挑战。
在当今医疗领域,人工智能技术正以前所未有的速度发展,大语言模型(LLMs)的出现为医疗诊断带来了新的机遇与挑战。来自德国慕尼黑工业大学医学院诊断与介入神经放射学系等多个部门的研究人员,在npj Digital Medicine期刊上发表了题为 “Benchmarking the diagnostic performance of open source LLMs in 1933 Eurorad case reports” 的论文。这一研究聚焦于开源 LLMs 在放射诊断中的应用,对于推动人工智能在医疗领域的实际应用、提升放射诊断效率和准确性具有重要意义,为后续相关研究和临床实践提供了关键参考依据。
人工智能的飞速发展深刻变革了医疗诊断模式,LLMs 凭借其强大的自然语言处理能力,在放射学的诸多应用场景中展现出巨大潜力,如制定研究方案、进行鉴别诊断、生成报告以及从自由文本报告中提取信息等。然而,数据隐私问题成为 LLMs 在临床广泛应用的主要障碍。过往研究多采用专有、闭源模型,如 GPT - 4、Claude 3 或 Gemini 等,这些模型通常通过网络界面或 API 访问,这意味着患者数据需传输至第三方服务器,增加了敏感健康信息被未经授权访问或滥用的风险,限制了其在患者数据上的使用。虽然基于云的解决方案能在一定程度上缓解隐私问题,但仍受商业更新周期影响,长期成本较高。
开源模型为解决这些问题提供了新途径。它允许医疗机构将患者数据保留在本地基础设施中,降低隐私风险,且不受商业更新周期限制,因其免费可得,还可能降低成本。尽管以往开源 LLMs 在临床决策支持任务中表现欠佳,但 Meta 的最新模型 Llama - 3 在某些领域已展现出与领先专有模型相当的性能,如在回答放射学委员会考试问题方面。不过,其在实际临床病例中的诊断准确性仍有待深入探究。
欧洲放射学会(ESR)管理的 Eurorad 是一个全面的同行评审放射学病例报告库,涵盖了腹部成像、神经放射学、泌尿放射学和儿科放射学等多个放射学子专业的广泛病例,是评估 LLMs 在放射诊断中性能的理想资源。本研究旨在利用 Eurorad 病例报告评估先进开源 LLMs 在放射诊断中的性能。
研究人员从欧洲放射学会的病例报告库(https://eurorad.org/)自动下载病例报告数据,包括 “临床病史”“影像学表现”“最终诊断” 和 “章节” 等信息。这些病例描述包含患者人口统计学信息、症状、既往病史、实验室值和详细的影像学发现,足以在大多数情况下确定准确诊断,最终诊断作为评估的基准事实。研究收集了 2015 年 7 月 6 日之后发布且根据知识共享许可 CC BY - NC - SA 4.0 授权的所有病例报告,于 2024 年 6 月 15 日使用 Python 库 “Scrapy”(版本 2.11.2)进行抓取。此外,为评估模型的泛化能力并解决潜在的数据污染问题,研究人员还使用了本地数据库中的 60 例脑 MRI 病例作为补充数据集,这些病例同样包含简要的临床病史和影像学发现,其真实诊断依据组织病理学或至少两名神经放射科医生的独立共识确定,且该本地数据集未公开,不太可能包含在 LLMs 的训练数据中。
研究纳入了 OpenAI 的最先进闭源 LLM——GPT - 4o 作为对照。在开源 LLMs 方面,选取了来自 Meta、Microsoft、Mistral、Alibaba 和 Google 等领先开发者的通用模型,以及根据 HuggingFace(https://huggingface.co/models)上的趋势和下载指标排名靠前的医学微调 LLMs。最初测试了一个医学微调模型 Meditron - 70B,但因其返回无意义的响应(可能是由于未进行特定的指令微调训练),最终将其排除在分析之外。
研究人员开发了基于 Python 的工作流程,利用 “llama_cpp_python” 库(版本 0.2.79)来评估一系列开源 LLMs。该库为广泛使用的 “llama_cpp” 软件提供 Python 绑定,能够在 GGUF(GPT 生成的统一格式)中执行本地量化的 LLMs。量化过程通过降低模型数值权重的精度(通常从浮点型转换为低比特表示),在保持性能的同时减小模型大小并提高运行速度。对于大多数模型,选择 Q5_K_M 量化方式以平衡压缩率和质量;对于 70B 模型,则选择 Q4_K_M 量化因子以实现完全的 GPU 卸载。研究中,所有 LLMs 均完全卸载到具有 48GB 显存的 Nvidia P8000 GPU 上以提高计算速度,将温度设置为 0 以确保确定性响应,并将上下文宽度限制为 1024 个令牌(经预先验证可容纳所有病例报告和响应)。这些设置旨在平衡性能和可重复性,不过研究人员也指出不同配置可能会产生不同结果。用于提示构建的 Python 代码以及所有模型的详细链接(从https://huggingface.co/下载)均公开在 GitHub 存储库https://github.com/ai - idt/os_llm_eurorad 中。GPT - 4o(“gpt - 4o - 2024 - 08 - 06”)通过 OpenAI 的应用程序编程接口(API,https://platform.openai.com/docs/models#gpt - 4o)进行访问。
为对比 LLMs 与放射科医生的诊断性能,安排了两名读者对 60 例脑 MRI 本地数据集提供最多三个鉴别诊断。读者 1 是具有两年神经放射学专业经验的放射科医生,读者 2 是具有四年经验的董事会认证神经放射科医生。为确保条件一致,两名读者仅获得文本病例描述,未提供图像数据(尽管这与实际临床场景不符)。
研究发现,大量病例在 “临床病史” 和 “影像学表现” 部分已包含正确诊断。受 “LLM - as - a - Judge” 范式启发,研究人员使用研究开始时最先进的开源模型 Llama - 3 - 70B 筛选出这些病例。具体做法是,向 Llama - 3 - 70B 输入指令:“You are a senior radiologist. Below, you will find a case description for a patient diagnosed with [Diagnosis]. Please check if the diagnosis or any part of it is mentioned, discussed, or suggested in the case description. Respond with either ‘mentioned’ (if the diagnosis is included) or ‘not mentioned,’ and nothing else.” 随后,向 16 个 LLMs(15 个开源 LLMs + GPT - 4o)输入拼接后的 “临床病史” 和 “影像学表现” 信息,并提示:“You are a senior radiologist. Below, you will find information about a patient: first, the clinical presentation, followed by imaging findings. Based on this information, name the three most likely differential diagnoses, with a short rationale for each.” 最后,再次使用 Llama - 3 - 70B 以二进制尺度评估每个 LLM 的响应,即判断正确诊断是否包含在三个鉴别诊断中,提示为:“You are a senior radiologist. Below, you will find the correct diagnosis (indicated after ‘Correct Diagnosis:’) followed by the differential diagnoses provided by a Radiology Assistant during an exam. Please assess whether the Radiology Assistant included the correct diagnosis in their differential diagnosis. Respond only with ‘correct’ (if the correct diagnosis is included) or ‘wrong’ (if it is not).”
为了解 Llama - 3 - 70B 作为 LLM 评判诊断正确性的性能,三名经验丰富的放射科医生(SHK 有两年经验,DMH 和 BW 均为有十年经验的董事会认证放射科医生)分别对 60 个 LLM 响应进行正确性评估,其中 20 个响应由三人共同评估以评估人类评判者之间的一致性。通过 140 个已知人类 “基准事实” 和 LLM 评判评估的 LLM 响应,计算 LLM 评判的准确性。
LLM 评判者和人类评估者均以二进制尺度评估 LLM 响应(即正确诊断是否在 LLM 列出的前三个鉴别诊断中)。根据响应数据,计算每个模型和类别的标准误差,公式为,其中是正确响应的比例,是样本数量。由于已知 LLM 评判者存在不准确之处,因此对标准误差进行调整,调整公式为,其中是 LLM 评判者的准确性。调整后的 95% 置信区间为。此外,通过计算皮尔逊相关系数评估 LLM 大小(以参数数量衡量)与诊断准确性之间的关系。
从 Eurorad 库最初检索到 4827 例病例报告,使用 Llama - 3 - 70B 模型识别出 2894 例诊断在病例描述中明确提及的病例,将这些病例排除后,最终得到 1933 例用于分析的病例。该数据集主要由神经放射学(21.4%)、腹部成像(18.1%)和肌肉骨骼成像(14.6%)病例组成,而乳腺成像(3.4%)和介入放射学(1.4%)病例占比较少。这种分布大致反映了不同放射学子专业在临床实践中的相对患病率。
在 140 例 Eurorad 病例的子集中,Llama - 3 - 70B 将响应分类为 “正确” 或 “错误” 的准确率高达 87.8%(140 个响应中有 123 个正确;95% 置信区间:0.82 - 0.93)。在由三名放射科医生共同评估的 20 个响应子集中,评判者之间的一致性为 100%,表明人类专家之间完全达成共识。Llama - 3 - 70B 与人类放射科医生之间的高度一致性,以及放射科医生之间的完全共识,支持了将 Llama - 3 - 70B 用作更大 LLM 响应数据集的自动评判者的有效性,使得研究人员能够在总体置信区间评估中纳入 Llama - 3 - 70B 的小误差。
整体性能:在所有模型中,介入放射学(67.8 ± 6.2%)、心血管成像(62.5 ± 3.2%)和腹部成像(60.5 ± 1.8%)的诊断准确率最高,而乳腺成像(50.0 ± 4.3%)和肌肉骨骼成像(50.4 ± 2.1%)的准确率较低。
不同模型性能:GPT - 4o 在除介入放射学外的所有子专业中均表现出卓越的诊断性能,正确响应率达到 79.6 ± 2.3%。在开源 LLMs 中,Meta - Llama - 3 - 70B 表现最佳(73.2 ± 2.5%),领先于 Mistral - Small(63.3 ± 2.6%)、Qwen2.5 - 32B(62.5 ± 2.6%)和 OpenBioLLM - Llama - 3 - 70B(62.5 ± 2.6%)。Medalpaca - 13B(34.0 ± 2.6%)、Meditron - 7B(44.3 ± 2.7%)和 BioMistral - 7B(44.5 ± 2.7%)的性能最低。Meta - Llama - 3 - 70B 的准确率显著高于其前身 Meta - Llama - 2 - 70B。
本地数据集性能:在本地脑 MRI 数据集中,观察到类似结果,GPT4o(76.7 ± 15.1%)和 Llama - 3 - 70B(71.7 ± 12.2%)再次领先。具有四年经验的董事会认证神经放射科医生 Reader 2 准确率最高,为 83.3 ± 13.3%;具有两年神经放射学经验的 Reader 1 准确率与 GPT - 4o 和 Meta - Llama - 3 - 70B 相当(75.0 ± 15.5%)。部分模型在本地数据集中性能下降高达 16%(例如,Llama - 2 - 70B 从 47.8 ± 2.7% 降至 31.7 ± 12.6%)。
模型准确性与模型大小(以十亿参数为单位)之间的皮尔逊相关系数为 0.54,表明存在中等程度的正相关。与同等大小的通用模型相比,经过特定领域训练数据微调的 LLMs 准确性较低。例如,OpenBioLLM - Llama - 3 - 70B(62.4 ± 2.6%)和 OpenBioLLM - Llama - 3 - 8B(45.4 ± 2.7%)的性能均低于其各自的基础模型 Meta - Llama - 3 - 70B(73.2 ± 2.5%)和 Meta - Llama - 3 - 8B(56.4 ± 2.6%)。
本研究对 15 个领先的开源 LLMs 在来自 Eurorad 库的 1933 例具有挑战性的病例报告中的诊断性能进行了基准测试。结果显示,尽管 GPT - 4o 在所有模型中表现最佳(准确率 79.6%),但 Meta 的 Llama - 3 - 70B 紧随其后(73.2%),这表明开源 LLMs 与专有 LLMs 之间的差距正在迅速缩小。在本地脑 MRI 数据集中,这两个模型的准确率与两名经验丰富的放射科医生相当或仅略低。此外,研究还发现模型性能在不同放射学子专业中存在差异,模型大小与诊断准确性之间存在中等正相关,且较小的模型如 Meta - Llama - 3 - 8B 也能表现出强大的性能,优于一些参数更多的较大模型。同时,医学微调模型的表现往往不如其基础模型或同等大小的通用模型。
研究意义:本研究基于真实病例描述评估 LLMs 的诊断性能,比使用预定义响应选项的问题更准确地反映了现实临床决策的复杂性,为 LLMs 在临床环境中的潜在应用提供了更现实的评估。研究结果突出了开源 LLMs 作为放射学鉴别诊断决策支持工具在现实病例中的潜力,尤其是 Llama - 3 - 70B 等模型的出色表现,为医疗机构在选择和应用 LLMs 时提供了重要参考。
面临挑战:尽管开源 LLMs 展现出潜力,但在临床实际应用中仍面临诸多挑战。在人机交互方面,如何使医生有效与 LLMs 互动并降低潜在风险尚未明确,自动化偏差可能导致医生过度依赖 LLM 建议而产生系统性错误,但 LLMs 也可通过提供不同视角减少认知偏差。技术层面,在本地运行开源 LLMs 需要充足的硬件和软件基础设施以及 IT 专业知识,这对于小型机构或诊所可能难以实现,需要 PACS、RIS 或 EHR 系统供应商的协作来克服这些障碍。经济上,部署 LLMs 涉及基础设施、查询使用和医生培训等成本,需要进行成本效益研究以评估这些投资是否合理。监管方面,建立有效的医学 LLM 开发和使用监管框架颇具挑战,LLMs 的输入输出范围广泛,难以制定全面的指南,监管机构需制定适应性强且严格的监督机制。此外,患者对 AI 辅助诊断的认知也至关重要,透明的沟通有助于建立患者信任,促进对 LLMs 的接受。
研究局限性:本研究存在一些局限性。数据污染问题无法完全排除,由于 LLMs 训练数据集缺乏透明度,研究中使用的病例报告可能与部分模型的训练数据重叠,尽管在非公开脑 MRI 数据集上的评估显示模型总体排名基本一致,但部分模型性能有所下降。使用 LLM 评估 LLM 响应虽提高了分析的可扩展性,但降低了准确性,研究人员虽通过调整标准误差进行了部分弥补,但仍存在一定缺陷。此外,研究未评估能够同时处理文本和图像数据的视觉语言模型(VLMs)的多模态性能,也未探讨温度设置和提示设计对 LLM 性能的影响,且未考虑同一病例不同描述的影响。
综上所述,该研究为开源 LLMs 在放射诊断中的应用提供了全面而深入的见解。尽管目前面临诸多挑战,但开源 LLMs 的潜力不可忽视。未来的研究需要进一步解决数据污染、模型性能优化、多模态融合以及临床应用中的实际问题,以推动 LLMs 在放射诊断乃至整个医疗领域的广泛应用,最终实现提高医疗质量、改善患者预后的目标。
生物通微信公众号
知名企业招聘