探秘大语言模型在耳鼻喉科考试中的 “实力”:潜力与局限并存

【字体: 时间:2025年04月27日 来源:European Archives of Oto-Rhino-Laryngology 1.9

编辑推荐:

  为探究先进大语言模型(LLMs)在耳鼻喉科专业考试中的能力,研究人员用 Python 和应用程序编程接口(APIs)测试 11 种 LLMs。结果显示 GPT-4o 准确率最高,GPT-3.5 Turbo 性能下降。这为医学教育和认证中应用 LLMs 提供参考。

  在当今科技飞速发展的时代,人工智能(AI)的浪潮席卷了各个领域,医学领域也不例外。大语言模型(LLMs)作为 AI 领域的明星技术,展现出了强大的文本处理能力,从客服自动化到创意写作,其应用范围不断拓展。然而,在医学教育中,虽然 LLMs 已初露锋芒,如生成教育内容、模拟医患互动等,但在像耳鼻喉科这样高度专业化的领域,其应用探索还相对较少。
耳鼻喉科涵盖了听力学、语音医学、鼻科学、喉科学、睡眠医学以及头颈肿瘤学等多个细分领域,每个领域都需要深厚的专业知识。在这样的背景下,评估 LLMs 在耳鼻喉科专业内容上的表现至关重要。一方面,这有助于开发更贴合实际需求的 AI 工具,辅助医学生和专业人员掌握复杂的知识;另一方面,也能让我们清晰地认识到 LLMs 的局限性,明确在哪些方面人类专业知识依然不可替代,从而保障医疗安全和医疗实践的可靠性。

基于以上原因,来自德国慕尼黑工业大学(TUM)医学院耳鼻喉科头颈外科等多个机构的研究人员 Cosima C. Hoch、Paul F. Funk 等开展了一项研究,旨在探索包括 OpenAI 的 GPT-4 系列、Google 的 Gemini 系列和 Anthropic 的 Claude 系列等先进大语言模型,在应对高度专业化的耳鼻喉科董事会考试问题时的能力。同时,研究还对 GPT-3.5 Turbo 进行了纵向评估,对比其一年前在相同问题集上的表现,观察性能变化。该研究成果发表在《European Archives of Oto-Rhino-Laryngology》上。

研究人员开展这项研究主要运用了以下关键技术方法:首先,他们使用了一个包含 2576 道选择题的题库,这些题目来自德国一个专门为耳鼻喉科董事会认证准备的在线教育平台,涵盖 15 个耳鼻喉科亚专业,去除了依赖图像的题目。然后,借助 Python 编程语言编写脚本,通过应用程序编程接口(APIs)与 11 种不同的 LLMs 进行交互,自动提交问题并收集答案。最后,运用 SPSS Statistics 25 软件进行统计分析,如 Pearson’s 卡方检验、Mann-Whitney-U 检验和 Wilcoxon 符号秩检验等 ,评估模型性能。

下面来看看具体的研究结果:

  • GPT-3.5 Turbo 的纵向比较:与一年前相比,GPT-3.5 Turbo 的准确率从 57.3% 显著下降至 52.6%(p<0.001),在口腔与咽部、过敏学、喉部等多个类别中表现均有明显下滑。
  • LLMs 的整体性能:不同 LLMs 的表现参差不齐。GPT-4o 准确率最高,达到 55.6%;Claude 3 Haiku 最低,仅 30.2%。Gemini 系列中表现最好的 Gemini 1.0 Pro 准确率为 49.1%,Claude 系列的 Claude 3.5 Sonnet 准确率为 51.9%。
  • 单选题与多选题的表现:所有 LLMs 在单选题上的表现均优于多选题。例如,GPT-4o 在单选题上准确率为 61.0%,多选题仅 31.9%(p<0.001)。
  • 否定式与非否定式问题的表现:不同模型在这两类问题上表现各异。GPT-4 系列在否定式问题上表现更优,部分有统计学差异;Claude 3 Haiku 在否定式问题上表现显著下降(32.6% vs. 20.5%,p<0.001) 。
  • 问题长度的影响:问题长度对所有模型的性能均有显著影响,随着问题长度增加,模型准确率呈下降趋势。
  • 不同耳鼻喉科亚专业的表现:GPT-4o 在过敏学(66.5%)、头颈肿瘤(62.8%)等类别表现出色;而在事实与历史、法律方面等类别,所有模型表现均不佳,如 GPT-4o 在事实与历史类别准确率仅 44.4%,GPT-4 Turbo 在法律方面类别最高准确率为 38.6% 。

研究结论和讨论部分指出,虽然 GPT-4 系列等较新或更先进的模型表现优于早期模型,但在耳鼻喉科董事会考试相关问题上,其准确率仍不足以独立用于高风险应用,如考试准备或临床决策。Claude 系列和 Gemini 系列虽有一定竞争力,但整体仍落后于 GPT-4 系列。

GPT-3.5 Turbo 性能下降可能与模型架构、算法变化、训练数据更新或提示设计调整有关。LLMs 在多选题上表现较差,可能是因为对选项顺序敏感、存在选择偏差,且难以进行高阶推理。不同模型在否定式问题上的表现差异,反映出其语言处理能力的不同。在不同耳鼻喉科亚专业中,模型表现受问题结构、领域知识特点以及训练数据覆盖程度等因素影响。

这项研究意义重大,它全面评估了 LLMs 在耳鼻喉科专业考试中的能力和局限性,为未来在医学教育和临床实践中合理应用 LLMs 提供了重要参考。同时,也为后续研究指明了方向,如通过特定领域数据集微调 LLMs、增强多语言训练、引入更多性能评估指标等,以进一步挖掘 LLMs 在医学领域的潜力,推动医学教育和临床实践的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号