GPT-4o 与谷歌 Gemini 对决:挑战神经外科影像试题,大语言模型表现几何?
【字体:
大
中
小
】
时间:2025年03月26日
来源:Neurosurgical Review 2.5
编辑推荐:
为探究大语言模型(LLMs)回答基于图像问题的能力,研究人员针对神经外科备考影像题库,测试 GPT-4o 和谷歌 Gemini。结果显示,GPT-4o 准确率 51.45% ,显著优于 Gemini,二者在影像题表现均欠佳,这为 LLMs 在医学影像领域的发展提供参考。
大语言模型(LLMs)已展现出有效回答医学资格考试问题的能力,但它们回答基于图像问题的能力尚未得到检验。本研究旨在评估两款大语言模型(GPT-4o 和谷歌 Gemini)在专为神经外科资格考试备考设计的图像题库上的表现。研究使用了《神经外科资格考试综合备考书籍:图文问答》和《神经外科练习题及答案》中的 379 道基于图像的问题来测试大语言模型的准确性。要求大语言模型独立回答所有问题,并对所选答案作出解释。已通过美国神经外科委员会(ABNS)初级考试的神经外科高级住院医师对问题的解决顺序和大语言模型回复的质量进行评估。一阶问题考查解剖学知识,二阶问题需要诊断推理,三阶问题通过推断诊断及相关事实来测试更深层次的临床知识,以此评估模型对医学概念的记忆和应用能力。研究人员进行了卡方检验和独立样本 t 检验,以衡量大语言模型之间的表现差异。在图像题库测试中,GPT-4o 和 Gemini 的正确得分百分比分别为 51.45%(95% 置信区间:46.43–56.44%)和 39.58%(95% 置信区间:34.78–44.58%)。总体而言,GPT-4o 的表现显著优于 Gemini(P = 0.0013),在病理学 / 组织学(P = 0.036)和放射学(P = 0.014)方面尤为突出。GPT-4o 在二阶问题上的表现也更好(56.52% 对 41.85%,P = 0.0067),且平均回复质量评分更高(2.77 对 2.31,P = 0.000002)。在这个包含 379 道专为神经外科资格考试备考设计的图像题库测试中,GPT-4o 得分 51.45% ,超过了 Gemini。与之前关于大语言模型在资格考试风格问题上表现的研究相比,其在基于图像问题上的表现较低,这表明大语言模型可能在机器视觉 / 医学图像解读任务上存在困难。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号