多模态大语言模型在神经放射学中的诊断准确性评估:基于JAMA病例的图像解读研究
《Scientific Reports》:Evaluating diagnostic accuracy of large language models in neuroradiology cases using image inputs from JAMA neurology and JAMA clinical challenges
【字体:
大
中
小
】
时间:2025年11月28日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对大语言模型(LLM)在医学图像独立诊断中的局限性,系统评估了GPT-4v、GPT-4o、Gemini 1.5 Pro、Gemini 1.5 Flash、Claude 3.0和Claude 3.5六种多模态LLM对56例JAMA神经放射学病例的诊断性能。研究发现Claude 3.5在原始图像文本输入下准确率最高(80.4%),与第一年神经放射学专科医师水平相当(71.4%),但模型在单独图像任务中病理定位准确率仅为21.5%-63.1%,表明LLM虽在文本临床信息处理方面表现优异,但其独立影像解读能力仍需提升。该研究为LLM在放射学工作流程中的整合提供了重要参考依据。
随着人工智能技术的飞速发展,大语言模型(Large Language Model, LLM)已突破自然语言处理的范畴,逐渐渗透到医疗专业领域。特别是在放射学这类高度依赖图像解读的学科中,GPT-4、Gemini和Claude等多模态LLM展示了处理文本与视觉信息的双重能力,为临床诊断决策支持带来了新的可能。然而,现有研究多基于公开病例数据集,存在数据泄露风险,且这些模型在需要精确定位病灶位置或分析复杂影像学表现方面的能力仍显不足。
当前研究面临的关键问题在于,如何客观评估LLM在神经放射学中的真实诊断能力,避免因训练数据污染导致结果偏倚。同时,明确LLM与人类专家的性能差异,以及模型在纯图像解读任务中的表现,对于推动其在临床实践中的应用至关重要。
为解决这些问题,由Ahmed Albaqshi和Ji Su Ko作为共同第一作者、Chong Hyun Suh作为通讯作者的研究团队在《Scientific Reports》上发表了最新研究成果。该研究创新性地采用JAMA Neurology和JAMA临床挑战病例库中2015年5月至2024年4月间的56例神经放射学病例,通过文本重构和答案选项重排的方式减少数据泄露风险,系统比较了六种主流多模态LLM与不同年资神经放射科医师的诊断性能。
研究采用的方法学框架包含多个创新点:首先,团队通过GPT-4o对原始病例文本进行重构并随机重排多选题选项,创建了独立于训练数据的测试集;其次,设计四种输入模式(原始文本图像、重构文本图像、仅重构文本、仅图像)全面评估LLM能力;最后,引入温度参数(T0、T0.5、T1)和五次重复实验,采用Fleiss' kappa评估模型应答一致性。在仅图像任务中,LLM需回答关于成像模态、序列、对比剂使用、成像平面、解剖定位和病理定位等六个专业问题。
研究结果显示,在原始文本图像输入条件下,Claude 3.5表现最优,准确率达80.4%。值得注意的是,模型在重构文本图像与仅重构文本条件下的准确率无显著差异(Claude 3.5均为76.8%),表明LLM主要依赖文本临床信息而非图像内容进行诊断。这一发现提示当前多模态LLM的影像解读能力尚未成为诊断决策的主要贡献因素。
在与人类放射科医师的对比中,LLM整体表现与第一年神经放射学专科医师相当(71.4%),但显著优于低年资主治医师(51.8%)和第二年专科医师(48.2%)。这一结果可能反映出现有LLM在整合临床信息方面的优势,同时也提示高年资医师在罕见病例诊断中可能因无法查阅资料而处于劣势。
在五次重复实验中,所有LLM均表现出高度一致性(Fleiss' kappa值0.860-1.000)。温度参数降低时,κ值普遍升高,Claude 3.5在T0条件下达到完美一致性(κ=1.000)。这种高度可重复性为LLM在临床环境中的可靠应用提供了支持。
在仅依靠图像输入的任务中,LLM表现出明显的能力差异。在识别成像模态(80.0%-96.2%)和解剖位置(53.1%-97.7%)方面准确率较高,但在确定病理位置方面表现显著较差(21.5%-63.1%)。这种差异凸显了LLM在正常解剖结构识别与异常病变精确定位之间的能力不匹配。
研究还提供了具体案例说明LLM的局限性。如图2所示,基于JAMA神经病学病例的生殖细胞瘤诊断中,Claude 3.5在文本描述简化后给出错误答案,表明模型对影像学关键特征的理解仍依赖于详细的文本描述。
本研究通过严谨的实验设计证实,当前多模态LLM在神经放射学诊断中展现出的潜力主要基于文本临床信息的处理能力,而非独立的影像解读能力。模型在病理定位任务中的相对薄弱表现提示,未来的发展重点应放在提升视觉推理和空间定位能力上。尽管存在仅使用多选题可能高估性能、病例偏重罕见病影响泛化性等限制,这项研究为LLM在放射学领域的应用提供了重要基准,指明了技术改进的关键方向。随着模型迭代更新,如OpenAI的"o1 pro"等新一代模型的涌现,持续评估和验证对于推动人工智能在医疗领域的负责任整合至关重要。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号