大型语言模型在医学教育中的应用：组织学多选题回答能力的跨平台比较评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月14日 来源：Medical Education Online 3.1

编辑推荐：

　　这篇综述系统评估了五种主流大型语言模型（LLMs：GPT-4.1、Claude 3.7 Sonnet、Gemini 2.0 Flash、Copilot和DeepSeek R1）在医学组织学多选题（MCQs）中的表现，发现其平均准确率达91.1%（SD=7.2），其中Gemini以92.0%领先，但系统间差异不显著（p>0.05）。研究揭示了LLMs在基础医学学科（如组织学方法、血液系统）的卓越表现（100%准确率），但在肌肉组织（76.0%）等需空间推理的领域存在局限，为AI辅助医学教育提供了实证依据。

研究背景与技术演进

近年来，人工智能（AI）在医疗健康领域的应用呈现爆发式增长，其中大型语言模型（LLMs）展现出变革医学教育的潜力。从ChatGPT到Gemini，LLMs已能处理标准化医学考试题目并生成教学材料，但其在基础医学学科（如组织学）的表现尚未充分探索。组织学作为需要结合理论知识与显微图像解析的学科，为评估AI在医学教育中的能力提供了独特场景。

研究方法与模型选择

研究团队采用横断面比较设计，选取200道美国医师执照考试（USMLE）风格的组织学多选题，覆盖细胞、肌肉组织、循环系统等20个主题。测试对象为2025年最新发布的五大模型：OpenAI的GPT-4.1、Anthropic的Claude 3.7 Sonnet、Google的Gemini 2.0 Flash、Microsoft的Copilot以及深度求索的DeepSeek R1。每套模型需在24小时间隔下完成三轮独立测试，共分析3,000条回答数据。

性能表现与统计学发现

所有模型均展现超乎预期的高准确率（均值91.1%），其中Gemini以92.0%微弱领先，DeepSeek以90.3%暂居末位，但ANOVA分析显示系统间差异无统计学意义（p>0.05）。值得注意的是，基础性主题如组织学方法、血液与造血系统实现100%准确率，而肌肉组织（76.0%）和淋巴系统（84.7%）则成为"绊脚石"。双因素混合方差分析揭示，主题难度（η²=0.452）而非模型选择（η²=0.006）是影响表现的主因。

可靠性分析与临床意义

测试-再测可靠性评估显示，Claude具有最优异的稳定性（ICC=0.931），而Gemini（ICC=0.562）和DeepSeek（ICC=0.633）则表现中等。这种差异提示教育实践中需警惕：高可靠性模型（如Claude）适合作为标准化学习工具，而中等可靠性系统可能对相同问题给出不同答案，需人工校验。

跨学科比较与技术局限

与神经科学（67.2%）、胚胎学（78.7%）等基础学科相比，LLMs在组织学的表现提升显著（45-49%），这可能源于组织学知识的结构化特性。但研究存在关键局限——未包含图像类题目，而显微图像判读恰是组织学核心技能。此外，LLMs在肌肉组织等需三维空间理解的领域表现欠佳，暗示其空间推理能力仍有缺陷。

教育应用与未来方向

研究发现为课程设计提供重要启示：LLMs可高效承担组织学基础知识传授（如造血系统），而复杂组织解析仍需传统教学方法。建议开发"人机协作"教学模式，利用AI处理标准化内容，保留教师对高阶技能的指导。未来研究应聚焦图像识别能力评估，并探索针对薄弱领域的微调策略。

（注：全文严格基于原文数据，未添加非文献支持内容）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号