
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:健康科学教育中人工智能生成选择题的利益相关者观点与实施考量
【字体: 大 中 小 】 时间:2025年08月02日 来源:Current Research in Physiology 1.7
编辑推荐:
这篇综述探讨了人工智能(AI)尤其是大语言模型(LLM)在健康科学教育中生成选择题(MCQ)的应用潜力与挑战。文章系统分析了AI生成MCQ在效率提升(如检索增强生成RAG技术)、质量控制(如消除幻觉hallucinations)和伦理考量(如数据偏见bias)等方面的优劣,并提出了分阶段实施的指导原则(如人类专家审核human oversight),为教育工作者平衡技术创新与评估严谨性提供了实践框架。
健康科学教育肩负着培养未来医疗从业者的重任,而评估工具的革新正随着人工智能(AI)技术发展迎来转折点。传统选择题(MCQ)虽能高效测评从基础记忆到复杂临床推理的多层次能力,但其创作过程耗时费力——单个优质MCQ可能需要1小时编写时间,且85%的教师编写题目存在设计缺陷。大语言模型(LLM)的出现为这一困境提供了突破性解决方案,通过检索增强生成(RAG)和思维链提示(chain-of-thought prompting)等技术,能在数秒内生成课程定制化题目。
现代AI系统通过语义相似性分析和深度学习,可自动生成题干及具有迷惑性的干扰项。例如,Claude 3.7 Sonnet等新型推理模型通过延长"测试时计算"(test-time compute),能创建针对布鲁姆分类法中高阶认知技能的题目。相比传统方法,AI显著提升了三大维度效率:
时间成本:将题目生成时间从小时级压缩至分钟级
一致性:消除多教师协作时的风格差异
专业性:基于课程讲义或指南(如ACGME标准)生成精准内容
尽管AI能快速生成题目,但"幻觉"(hallucinations)风险始终存在——模型可能生成看似合理实则错误的临床建议。西班牙一项研究发现,70%的传统医学考试题目存在设计缺陷,而AI生成内容需要更严格的审查流程:
内容锚定:必须将题目限定在特定教学材料范围内
多级审核:建议初级教师与资深专家双重校验
偏见筛查:需警惕训练数据中潜在的种族或性别偏见
分阶段推广是降低风险的核心原则:
初级阶段:应用于形成性评估(formative assessment),如课后练习题库
进阶阶段:与传统题目混编用于阶段性测验
高利害评估:仅在使用验证成熟的模型后用于期末考试
学习管理系统(LMS)集成也至关重要。将AI生成题目直接嵌入Canvas/Moodle等平台,既能保障数据安全,又能维持学生使用体验的一致性。
英国高等教育政策研究所数据显示,92%的学生已使用AI辅助学习,这要求院校建立清晰的披露政策:
透明度:需告知学生AI参与题目生成,但隐藏具体题目来源
权责界定:明确教师始终对最终题目质量负责
知识产权:警惕第三方平台对院校教学材料的潜在数据捕获
当前亟需开展三类实证研究:
质量对比:盲法随机对照试验比较AI与人工题目效能
混合模式:探索"AI生成+教师优化"的最佳协作比例
分类标准:建立"AI辅助"与"AI生成"的量化界定标准
随着DeepSeek R1等专业模型的演进,健康科学教育正站在评估革命的临界点。唯有坚持"技术为教育服务"的核心原则,才能确保AI真正成为培养卓越医疗人才的有效工具。
生物通微信公众号
知名企业招聘