《Scientific Reports》:The pitfalls of multiple-choice questions in generative AI and medical education
编辑推荐:
为厘清大型语言模型(LLM)在医学多选题(MCQ)中的高分数是否“泡沫”,作者构建配对开放问答(FreeMedQA)并对比GPT-4o、GPT-3.5、Llama-3-70B与医学生表现。结果显示模型平均下降39.43%,人类下降22.29%;当题干100%被遮盖时,LLM仍高出随机6.70%,而开放问答接近零分,提示MCQ显著高估LLM真实医学推理,呼吁临床AI评估转向开放问答或多轮对话。
“AI医生”高分神话遭遇“开放问答”滑铁卢:FreeMedQA撕开医学多选题测评裂缝
——《Scientific Reports》2025年论文深度解读
当GPT-4o在USMLE风格的多选题(MCQ)中轻松拿下80+分,舆论惊呼“AI即将持证上岗”。然而,纽约大学Langone Health的Eric Karl Oermann团队却嗅到一丝不寻常:这些耀眼分数究竟是模型深悟医学真谛,还是悄悄“刷题”刷出的幻象?为回答这一灵魂拷问,研究者首次打造1万+配对开放问答(FreeMedQA),让GPT-4o、GPT-3.5、Llama-3-70B与医学生同场“闭卷”——结果,AI平均暴跌39.43%,人类仅降22.29%;当把题干完全涂黑只剩选项,模型仍比随机高出6.70%,而开放端得分几乎归零。论文2025年3月28日投稿、10月27日接收,登载于《Scientific Reports》,为医学AI评估敲响“格式警钟”:MCQ高分≠临床就绪,开放问答才是硬核试金石。
关键技术速览(≤250字)
基于MultiMedQA 14 965题,用GPT-4o+少样本提示过滤得10 278道可独立回答题;正则剔除“下列哪项”等MCQ线索,生成配对开放问答题;以GPT-4o盲评开放答案与标准选项语义等价性;对题干按25%、50%、75%、100%逐级token遮蔽,保留选项;招募高年级医学生做350题(175 MCQ+175开放)取均值;Mann-Whitney U、Wilcoxon符号秩检验统计显著性。
研究结果
FreeMedQA创建
经LLM过滤+人工盲审,最终获得10 278对高质量MCQ与开放问答题,涵盖基础、临床、影像等多学科,难度足以令医学生MCQ仅得39.43%。
LLM在开放问答相比MCQ性能下降
GPT-4o从86.75%→49.25%(?37.50%),GPT-3.5从78.85%→44.65%(?34.20%),Llama-3-70B从60.53%→13.94%(?46.59%),平均绝对降幅39.43%,远高于人类22.29%,p=1.3×10。
医学生表现
同一批学生MCQ平均39.43%,开放问答17.79%,下降22.29%,与既往心理学业曲线一致,证实格式差异非随机波动。
遮蔽实验
当题干被100%遮盖,仅留选项,GPT-4o仍获37.34%,比随机25%高12.34%,p=0.031;三模型平均高6.70%,p=0.002;而开放问答得分跌至0.15%,提示LLM借选项反向“猜答案”而非靠医学知识。
结论与讨论
MCQ让LLM“作弊”空间巨大:选项本身即线索,模型可凭统计模式、长度偏好或关键词匹配“蒙”对答案;一旦线索消失,真实生成能力原形毕露。研究首次量化“格式红利”,证明MCQ基准系统性地高估医学LLM的临床推理深度,易误导开发者与监管者。作者呼吁:
医学AI测评应转向开放问答、多轮对话CRAFT-MD或真实病例模拟;
模型发布须同时报告MCQ与开放得分,披露“降幅比”;
评估指标需纳入情感共情、团队协作与临床安全链,而非单看答题正确率。
一句话总结:FreeMedQA用1万+“闭卷”数据把医学LLM从“选择题状元”拉回“临床新生”,为AI真正走进病房设下更安全的护栏。