
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能在放射影像教育中的应用:多选题难度与区分度的对比研究
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Medical Imaging and Radiation Sciences 1.3
编辑推荐:
本研究针对健康医学教育中高质量多选题(MCQ)人工编写耗时耗力的问题,探索了ChatGPT-4o生成MCQ的可行性。通过对比56名放射影像专业学生完成AI与教师命题的两次考试,发现AI生成题目的难度指数(0.50 vs 0.53)和区分度(73.33%达标率)接近人工命题水平(p=0.089),证实大语言模型(LLM)可辅助医学评估体系建设。
在医学教育领域,高质量多选题(MCQ)的编写一直是令教育者头疼的难题。传统人工命题不仅需要耗费大量时间,还要求命题者具备深厚的专业知识和丰富的教学经验。尤其像放射影像这类需要结合视觉分析和临床推理的学科,编写既能考察基础知识又能评估高阶思维的MCQ更是难上加难。随着医学课程内容的不断扩充,教育者们迫切需要建立大规模且能持续更新的题库,这进一步加剧了命题工作的负担。
正是在这样的背景下,土耳其某医学院的研究团队开展了一项开创性研究。他们敏锐地注意到,近年来飞速发展的大语言模型(LLM)技术,特别是像ChatGPT这样的人工智能工具,可能为医学教育评估带来新的解决方案。虽然已有研究表明AI可以生成语法正确、内容相关的MCQ,但这些题目能否在关键的测量指标——难度和区分度上达到人工命题的水平,特别是在专业性极强的放射影像教育领域,仍是一个悬而未决的问题。
这项发表在《Journal of Medical Imaging and Radiation Sciences》的研究,首次系统比较了AI生成与人工编写的完整MCQ考试在实际教学环境中的表现。研究团队设计了精巧的实验方案:从80名医学影像专业一年级学生中招募56名参与者,让他们先后完成两份30题的MCQ测试——一份完全由ChatGPT-4o生成,另一份则由资深教师编写。所有题目均覆盖颅骨、脊柱、骨盆及下肢放射解剖与投照体位等核心内容,并按难度分为三个等级。通过计算每道题的难度指数(正确答题比例)和区分度(区分高低分学生的能力),并结合学生的5级Likert量表反馈,研究团队获得了令人振奋的发现。
研究采用了三项关键技术方法:首先运用提示工程(prompt engineering)优化ChatGPT-4o的题目生成指令;其次采用经典测试理论(Classical Test Theory)计算难度指数(P值)和区分度(D值);最后通过配对t检验和Pearson相关性分析比较两组考试表现。所有数据均来自2024-2025学年土耳其某医学院的在校生队列。
结果部分呈现了丰富的数据发现:
讨论部分深入剖析了这些发现的意义。虽然AI生成的个别题目在临床情境建模上不如人工题精准,但其整体表现已接近专家水平。特别是在保持适当难度(0.4-0.6的理想区间)方面,ChatGPT展现出令人惊喜的能力。研究也指出,AI题目在干扰项设计上存在提升空间——这是影响区分度的关键因素。
这项研究的结论部分给出了明确建议:LLM可作为放射影像教育评估的辅助工具,特别是在需要快速扩充题库或更新内容时。但现阶段仍需教师对AI生成的题目进行最后的审核把关,特别是确保干扰项能有效反映学生的常见错误认知。该研究为医学教育数字化转型提供了重要实证依据,提示混合式命题(hybrid AIG)可能是未来发展方向——既能发挥AI的效率优势,又能保留人类专家的质量控制。
从更广阔的视角看,这项研究的意义不仅限于放射影像教育。它为大语言模型在专业教育评估中的应用设立了基准,证明AI生成的考核材料可以达到与人工编写相当的心理测量学指标。随着技术的持续进步,未来可能出现能自动优化题目参数的智能系统,这将彻底改变医学教育评估的面貌。
生物通微信公众号
知名企业招聘