大语言模型在解剖学教育中的演进:基于当前主流AI与历史ChatGPT性能对比研究
《Scientific Reports》:Evolution of AI in anatomy education study based on comparison of current large language models against historical ChatGPT performance
【字体:
大
中
小
】
时间:2025年10月29日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对大型语言模型(LLM)在医学教育中可靠性评估不足的问题,系统分析了GPT-4o、Claude、Copilot和Gemini在325道USMLE风格解剖学多选题中的表现。结果显示,当前LLMs平均准确率达76.8±12.2%,显著优于GPT-3.5(44.4±8.5%),其中GPT-4o以92.9±2.5%的准确率领先,但不同模型在头颈部(79.5%)、腹部(78.7%)和上肢(72.9%)等主题表现存在显著差异(χ2=182.11–518.32, p<0.001)。研究表明LLMs可作为解剖学教育的补充工具,但其主题特异性误差需人工监督。
随着人工智能技术的迅猛发展,大型语言模型(Large Language Models, LLM)在医疗教育领域的应用潜力日益受到关注。然而,这些模型在专业性极强的学科如解剖学中的可靠性和准确性究竟如何?它们是否能真正辅助医学生掌握复杂的解剖结构知识?尽管已有研究初步探索了ChatGPT在医学考试中的表现,但针对解剖学这一基础学科的全面评估仍显不足,尤其是不同模型在不同解剖主题间的性能差异尚未明确。为此,研究人员开展了一项针对当前主流LLMs的对比研究,旨在揭示其在解剖学教育中的实际能力与局限。
为系统评估LLMs的解剖学知识水平,研究团队选取了325道美国医师执照考试(United States Medical Licensing Examination, USMLE)风格的解剖学多项选择题(Multiple-Choice Questions, MCQ),覆盖腹部、背部、头颈部、下肢、骨盆、胸部和上肢七大解剖区域。研究比较了GPT-4o、Claude 3.5 Sonnet、Copilot和Gemini 1.5 Flash四款主流模型的表现,并与2023年记录的GPT-3.5数据及随机猜测结果进行对照。每款模型均对同一题库进行三次独立作答,通过卡方检验分析性能差异的统计学显著性。
研究采用横断面对比设计,从格罗斯解剖学(Gross Anatomy)课程题库中随机选取纯文本MCQ,经三位专家验证后,通过标准化提示词要求各模型批量生成答案。使用Excel记录4,875条回答数据,并通过RAND()函数模拟随机猜测基线。统计分析采用Pearson卡方检验(显著性阈值p≤0.05)比较模型间与主题间差异。
四款当代LLMs的平均准确率达到76.8±12.2%,较GPT-3.5(44.4±8.5%)提升27.7%,且远超随机猜测水平(19.4±5.9%)。GPT-4o以92.9±2.5%的准确率位列第一,其三次尝试的正确率持续上升(91.7%→93.2%→94.8%),且答案一致性高达96.6%–98.2%。Claude(76.7±5.7%)和Copilot(73.9±11.9%)分列二、三位,而Gemini(63.7±6.5%)表现相对落后。统计检验证实所有模型性能分布均显著偏离均匀分布(χ2=182.11–518.32, p<0.001)。
头颈部(79.5%)和腹部(78.7%)主题的平均正确率最高,而上肢主题(72.9%)最低。GPT-4o在骨盆(95.3%)、上肢(94.7%)和胸部(94.0%)表现最优,而GPT-3.5仅在背部(60.0%)和头颈部(50.0%)达到相对较高水平。不同模型对同一主题的适应度差异明显,例如Copilot在腹部和背部题目中准确率超87%,但在骨盆和胸部题目中骤降至56%–64.8%。
仅29.5%(96/325)的题目被所有当代LLMs一致答对,而2.5%(8/325)的题目无一模型答对,后者均为高难度批判性思维题。GPT-4o在91.1%(296/325)的题目中保持全对,而GPT-3.5仅有28.3%(92/325)的题目稳定正确。Copilot因输入字符限制(每次仅处理15–25题)和答案波动性(标准差11.9%)成为可靠性最低的模型。
本研究证实了LLMs在解剖学知识评估中的快速进步,尤其是GPT-4o已接近专业水平。然而,模型在特定解剖主题(如上肢)的显著性能落差,以及部分高难度题目的普遍错误,提示其知识结构存在盲区。此外,不同模型的一致性差异(如GPT-4o答案重合度超96%,而Gemini仅50.8%–55.4%)表明技术成熟度参差不齐。这些发现强调,LLMs需在主题特异性验证后,方可作为医学教育的辅助工具,且必须与传统教学方法结合使用。未来研究可进一步探索LLMs在图像题、临床场景中的应用,并推动针对医学教育的专业化模型开发。论文发表于《Scientific Reports》,为AI赋能医学教育提供了关键实证依据。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号