
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在医学教育中的应用:组织学多选题回答能力的跨平台比较评估
【字体: 大 中 小 】 时间:2025年07月14日 来源:Medical Education Online 3.1
编辑推荐:
这篇综述系统评估了五种主流大型语言模型(LLMs:GPT-4.1、Claude 3.7 Sonnet、Gemini 2.0 Flash、Copilot和DeepSeek R1)在医学组织学多选题(MCQs)中的表现,发现其平均准确率达91.1%(SD=7.2),其中Gemini以92.0%领先,但系统间差异不显著(p>0.05)。研究揭示了LLMs在基础医学学科(如组织学方法、血液系统)的卓越表现(100%准确率),但在肌肉组织(76.0%)等需空间推理的领域存在局限,为AI辅助医学教育提供了实证依据。
近年来,人工智能(AI)在医疗健康领域的应用呈现爆发式增长,其中大型语言模型(LLMs)展现出变革医学教育的潜力。从ChatGPT到Gemini,LLMs已能处理标准化医学考试题目并生成教学材料,但其在基础医学学科(如组织学)的表现尚未充分探索。组织学作为需要结合理论知识与显微图像解析的学科,为评估AI在医学教育中的能力提供了独特场景。
研究团队采用横断面比较设计,选取200道美国医师执照考试(USMLE)风格的组织学多选题,覆盖细胞、肌肉组织、循环系统等20个主题。测试对象为2025年最新发布的五大模型:OpenAI的GPT-4.1、Anthropic的Claude 3.7 Sonnet、Google的Gemini 2.0 Flash、Microsoft的Copilot以及深度求索的DeepSeek R1。每套模型需在24小时间隔下完成三轮独立测试,共分析3,000条回答数据。
所有模型均展现超乎预期的高准确率(均值91.1%),其中Gemini以92.0%微弱领先,DeepSeek以90.3%暂居末位,但ANOVA分析显示系统间差异无统计学意义(p>0.05)。值得注意的是,基础性主题如组织学方法、血液与造血系统实现100%准确率,而肌肉组织(76.0%)和淋巴系统(84.7%)则成为"绊脚石"。双因素混合方差分析揭示,主题难度(η2=0.452)而非模型选择(η2=0.006)是影响表现的主因。
测试-再测可靠性评估显示,Claude具有最优异的稳定性(ICC=0.931),而Gemini(ICC=0.562)和DeepSeek(ICC=0.633)则表现中等。这种差异提示教育实践中需警惕:高可靠性模型(如Claude)适合作为标准化学习工具,而中等可靠性系统可能对相同问题给出不同答案,需人工校验。
与神经科学(67.2%)、胚胎学(78.7%)等基础学科相比,LLMs在组织学的表现提升显著(45-49%),这可能源于组织学知识的结构化特性。但研究存在关键局限——未包含图像类题目,而显微图像判读恰是组织学核心技能。此外,LLMs在肌肉组织等需三维空间理解的领域表现欠佳,暗示其空间推理能力仍有缺陷。
研究发现为课程设计提供重要启示:LLMs可高效承担组织学基础知识传授(如造血系统),而复杂组织解析仍需传统教学方法。建议开发"人机协作"教学模式,利用AI处理标准化内容,保留教师对高阶技能的指导。未来研究应聚焦图像识别能力评估,并探索针对薄弱领域的微调策略。
(注:全文严格基于原文数据,未添加非文献支持内容)
生物通微信公众号
知名企业招聘