聊天机器人在医学教育评估中生成单项最佳答案试题的效能比较:内容效度与一致性分析

《JMIR Human Factors》:Chatbots’ Role in Generating Single Best Answer Questions for Undergraduate Medical Student Assessment: Comparative Analysis

【字体: 时间:2025年10月28日 来源:JMIR Human Factors 3

编辑推荐:

  本研究针对医学教育中程序化评估面临的高质量试题生成效率低下问题,系统比较了ChatGPT-3.5、ChatGPT-4、Gemini和Bing四种AI聊天机器人生成单项最佳答案(SBA)试题的质量。结果显示各平台在内容清晰度、答案准确性和技术规范性方面各具特点,但均需专家审核才能确保评估有效性,为AI辅助医学评估提供了重要实证依据。

  
在当今医学教育领域,程序化评估(programmatic assessment)因其支持个性化学习路径而备受推崇,但同时也给教育工作者带来了巨大挑战——需要持续开发大量能够反映不同能力的评估工具。特别是单项最佳答案(single best answer, SBA)试题,作为多选题(multiple choice questions, MCQ)的 refined 格式,更适合评估医学生的高阶认知能力,但其制作过程极为耗时费力。从设计包含临床情境的描述(stem)、引导问题(lead-in)、正确答案和干扰项,到内容验证和潜在缺陷检测,每个环节都需要教育专家投入大量精力。
随着人工智能(artificial intelligence, AI)技术的迅猛发展,特别是大型语言模型(large language models, LLM)如ChatGPT、Gemini和Bing的出现,为解决这一困境提供了新的可能。这些AI工具能够快速生成文本内容,但一个关键问题随之而来:这些由AI生成的评估工具是否具备足够的科学准确性和教育价值?如果未经适当验证,AI可能会产生误导性的"垃圾科学",严重影响评估的有效性。
为此,Ulster大学医学院的研究团队开展了一项创新性研究,系统比较了四种主流AI聊天机器人生成SBA试题的能力。该研究已发表在《JMIR Human Factors》期刊上,为AI在医学教育评估中的应用提供了重要实证依据。
研究方法主要包括三个关键阶段:首先,三名研究人员使用统一提示脚本在四个聊天机器人平台(ChatGPT-3.5、ChatGPT-4、Gemini和Bing)上各生成10道SBA试题;其次,评估者通过识别不同用户和平台间输出的相似性和差异性来评估一致性;最后,七名评估者使用研究团队开发的评分量表对问题的科学准确性和教育质量进行内部审核。统计分析采用内容效度指数(Item Content Validity Index, I-CVI和Scale Level Content Validity Index, S-CVI)和双向方差分析(two-way ANOVA)等方法。
生成试题的产出情况
所有聊天机器人均能响应提示生成试题,除Bing在一个学习目标(learning objective, LOB)上未能响应外,其他平台各生成30道试题,总计117道。Bing表现出最高程度的用户间相似性(4道完全匹配,20道相似),而ChatGPT-4则显示出最大的变异性。
平台间一致性和技术缺陷评估
在正确答案分配偏好方面,Gemini明显倾向于将正确答案设为B选项,而ChatGPT版本则偏好A、B、C选项。技术缺陷评估显示,所有聊天机器人在遵循SBA格式方面表现相似,但ChatGPT-4在"覆盖测试"(cover test)规则满足度上得分较低。Gemini在多数评估项目中表现良好,但在项目平衡(item balance)方面存在不足,其创建的试题引导问题严重依赖情境描述来获得答案。Bing在多数评估领域得分较低,但在生成适当长度的引导问题方面表现良好。值得注意的是,"测试知识应用而非孤立事实回忆"这一评估项目在所有聊天机器人中得分最低。
内容效度和准确性分析
内容效度评估显示,ChatGPT-3.5、Gemini和ChatGPT-4的S-CVI值相似(分别为0.9、0.91和0.91),而Bing表现最差(S-CVI/UA=0.83)。在内容清晰度和准确性方面,Bing在各项指标上都落后于其他平台。ChatGPT-4作为付费订阅版本,并未在所有方面超越其他聊天机器人,仅在教育准确性测量上略有优势。统计分析表明聊天机器人间存在显著差异(P<0.001),但事后检验显示个体聊天机器人间的配对差异并不显著。
研究结论指出,不同聊天机器人平台在生成教育试题方面存在明显差异。ChatGPT模型产生的输出变异性最大,降低了可预测性,同时保持了较强的内容清晰度和准确性,且答案偏差最小。Gemini表现类似但显示出对某一选项的强烈偏好,而Bing的变异性最小,内容清晰度和准确性也最低。ChatGPT-4并未显著提高试题质量,但最大化地增加了变异性。所有平台都存在技术缺陷,许多试题与情境描述的关联性较差。大多数试题测试的是回忆和理解能力,尽管Gemini包含了一些应用层面的项目,而Bing在特定主题上表现困难。
这些发现突显了AI在生成高阶思维试题方面的局限性,强化了专家评估的必要性。这也对布鲁姆分类法(Bloom's taxonomy)传统的认知层次提出了挑战,表明在AI辅助评估中,"评价"(evaluation)可能比"创造"(creation)更为关键。该研究为医学教育工作者在选择和使用AI工具进行评估设计时提供了重要参考,强调了人类专业知识在确保评估质量中的不可替代作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号