综述：健康科学教育中人工智能生成选择题的利益相关者观点与实施考量

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月02日 来源：Current Research in Physiology 1.7

编辑推荐：

　　这篇综述探讨了人工智能（AI）尤其是大语言模型（LLM）在健康科学教育中生成选择题（MCQ）的应用潜力与挑战。文章系统分析了AI生成MCQ在效率提升（如检索增强生成RAG技术）、质量控制（如消除幻觉hallucinations）和伦理考量（如数据偏见bias）等方面的优劣，并提出了分阶段实施的指导原则（如人类专家审核human oversight），为教育工作者平衡技术创新与评估严谨性提供了实践框架。

引言

健康科学教育肩负着培养未来医疗从业者的重任，而评估工具的革新正随着人工智能（AI）技术发展迎来转折点。传统选择题（MCQ）虽能高效测评从基础记忆到复杂临床推理的多层次能力，但其创作过程耗时费力——单个优质MCQ可能需要1小时编写时间，且85%的教师编写题目存在设计缺陷。大语言模型（LLM）的出现为这一困境提供了突破性解决方案，通过检索增强生成（RAG）和思维链提示（chain-of-thought prompting）等技术，能在数秒内生成课程定制化题目。

技术机制与优势

现代AI系统通过语义相似性分析和深度学习，可自动生成题干及具有迷惑性的干扰项。例如，Claude 3.7 Sonnet等新型推理模型通过延长"测试时计算"（test-time compute），能创建针对布鲁姆分类法中高阶认知技能的题目。相比传统方法，AI显著提升了三大维度效率：

时间成本：将题目生成时间从小时级压缩至分钟级
一致性：消除多教师协作时的风格差异
专业性：基于课程讲义或指南（如ACGME标准）生成精准内容

质量控制的挑战

尽管AI能快速生成题目，但"幻觉"（hallucinations）风险始终存在——模型可能生成看似合理实则错误的临床建议。西班牙一项研究发现，70%的传统医学考试题目存在设计缺陷，而AI生成内容需要更严格的审查流程：

内容锚定：必须将题目限定在特定教学材料范围内
多级审核：建议初级教师与资深专家双重校验
偏见筛查：需警惕训练数据中潜在的种族或性别偏见

教育场景实施策略

分阶段推广是降低风险的核心原则：

初级阶段：应用于形成性评估（formative assessment），如课后练习题库
进阶阶段：与传统题目混编用于阶段性测验
高利害评估：仅在使用验证成熟的模型后用于期末考试

学习管理系统（LMS）集成也至关重要。将AI生成题目直接嵌入Canvas/Moodle等平台，既能保障数据安全，又能维持学生使用体验的一致性。

伦理与政策框架

英国高等教育政策研究所数据显示，92%的学生已使用AI辅助学习，这要求院校建立清晰的披露政策：

透明度：需告知学生AI参与题目生成，但隐藏具体题目来源
权责界定：明确教师始终对最终题目质量负责
知识产权：警惕第三方平台对院校教学材料的潜在数据捕获

未来研究方向

当前亟需开展三类实证研究：

质量对比：盲法随机对照试验比较AI与人工题目效能
混合模式：探索"AI生成+教师优化"的最佳协作比例
分类标准：建立"AI辅助"与"AI生成"的量化界定标准

随着DeepSeek R1等专业模型的演进，健康科学教育正站在评估革命的临界点。唯有坚持"技术为教育服务"的核心原则，才能确保AI真正成为培养卓越医疗人才的有效工具。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号