编辑推荐:
在医学诊断领域,多模态模型(如 GPT-4o、Gemini 1.5 Pro)发展迅速。为探究其与放射科医生诊断能力差异,研究人员以神经放射学疑难病例为对象开展研究。结果显示,多模态模型依赖临床文本,而放射科医生能整合图文信息,该研究为 AI 辅助诊断提供参考。
在医学诊断的前沿阵地,人工智能(AI)的浪潮正汹涌袭来。近年来,大型语言模型(LLMs)在医学领域崭露头角,多模态模型如生成式预训练变换器 4o(GPT-4o)和双子座 1.5 专业版(Gemini 1.5 Pro)更是备受瞩目,它们不仅能处理文本信息,还尝试融合图像进行推理。然而,在复杂的医学诊断场景中,这些模型是否真的能与经验丰富的放射科医生相媲美,仍是个未解之谜。
一方面,多模态模型在面对一些复杂放射学病例时,展现出了令人惊叹的能力,似乎能与专家一较高下。但另一方面,人们并不清楚它们究竟是真正从文本和图像中汲取了信息,还是仅仅依靠在文本处理方面的优势来做出诊断。而放射科医生,凭借多年的专业训练和实践经验,早已熟练掌握整合视觉和文本信息进行诊断的技能。这种差异促使研究人员思考:评估多模态模型与放射科医生从多模态输入中获取信息的能力,对于明确多模态模型在放射学中的实际价值和局限至关重要。
为了解开这些疑惑,来自未知研究机构的研究人员开展了一项极具意义的研究。他们聚焦于《Radiology》杂志 “Diagnosis Please” 系列中的神经放射学病例,这些病例对于人类和 LLMs 来说都是极具挑战性的。研究人员旨在评估 GPT-4o 和 Gemini 1.5 Pro 在仅依靠文本信息、关键图像信息或两者结合的情况下,诊断这些病例的准确性,并与专业神经放射科医生的表现进行对比。该研究成果发表在《Diagnostic and Interventional Imaging》上,为医学诊断领域的发展提供了重要参考。
研究人员主要运用了以下关键技术方法:首先,从《Radiology》杂志网站检索 2008 年 1 月至 2024 年 9 月的 “Diagnosis Please” 神经放射学病例,共纳入 53 例。其次,通过各自的应用程序编程接口访问 GPT-4o 和 Gemini 1.5 Pro,使用特定提示要求模型提供诊断建议和图像描述。再者,安排 6 名有经验的神经放射科医生在闭卷环境下参与诊断,随机分组分别先看文本或图像信息,之后再获取完整病例信息;另外 3 名医生先独立诊断,再借助 Gemini 1.5 Pro 的建议重新诊断。最后,由一名独立的神经放射科医生评估模型提供的图像描述质量,并使用 McNemar 检验分析多模态模型与放射科医生正确答案的差异。
研究结果
- GPT-4o 和 Gemini 1.5 Pro 的表现:仅依据临床背景时,GPT-4o 和 Gemini 1.5 Pro 的准确率分别为 34.0%(18/53)和 44.7%(23.7/53);仅依靠图像时,准确率分别为 3.8%(2/53)和 7.5%(4/53);两者结合时,准确率分别为 34.0%(18/53)和 38.3%(20.3/53)。综合来看,多模态信息并未显著提升这两个模型的诊断准确率。
- 放射科医生的表现:放射科医生仅依据临床背景时,平均准确率为 16.4%(8.7/53);仅依靠关键图像时,准确率为 42.1%(22.3/53);两者结合时,准确率提升至 48.4%(25.6/53),且差异具有统计学意义(P<0.01)。
- 放射科医生与模型的比较:在关键图像及图文结合诊断方面,放射科医生表现显著优于 GPT-4o 和 Gemini 1.5 Pro(P<0.01);但仅依据临床背景时,表现则不如模型(P<0.01)。在部分病例中,模型能诊断出放射科医生遗漏的罕见综合征病例。
- 模型响应分析:GPT-4o 在识别成像模态、解剖区域和成像技术方面表现较好,但在识别成像异常方面存在较多错误(81.1% 的病例描述错误)。Gemini 1.5 Pro 在识别成像模态上表现尚可,但在解剖区域定位和技术识别上错误较多,且在识别成像异常方面错误率高达 94.3%。
- 放射科医生借助 Gemini 1.5 Pro 后的表现:放射科医生在 Gemini 1.5 Pro 的辅助下,诊断准确率显著提高,从 47.2%(25/53)提升至 56.0%(27/53)(P<0.01),且整体信心也有所增强。
研究结论与讨论
该研究表明,放射科医生具备从文本和视觉信息整合中获益的独特能力,而多模态模型在很大程度上依赖临床背景进行诊断,在医学图像解读方面存在明显局限,如幻觉现象、解剖区域识别错误等。尽管多模态模型在某些方面展现出潜力,如识别罕见综合征相关症状,但目前还无法完全替代放射科医生的临床推理能力。
不过,这些模型在处理复杂文本和编码临床知识方面的能力,使其有望成为辅助临床医生的有力工具。例如,Gemini 1.5 Pro 能发现放射科医生可能忽略的症状关联,为诊断提供新的思路。未来研究可进一步探索如何在临床环境中安全、有效地将人工智能与放射科医生的专业技能相结合,以及评估对大语言模型进行生物医学数据微调的实际效果。
总之,这项研究为多模态模型在医学诊断领域的应用指明了方向,揭示了当前模型的优势与不足,为后续研究和临床实践提供了宝贵的参考,有助于推动医学诊断技术在人工智能时代的进一步发展。