《Modern Pathology》:Large Language Models Can Generate High-Quality Pathology Multiple-Choice Questions Comparable to Questions Written by a Human Expert
编辑推荐:
胰腺病理学MCQ质量评估:比较人类专家与LLMs生成题目效果,发现ChatGPT-4生成问题更易但错误率略高,Gemini 2.5 Flash无显著差异。通过迭代提示优化LLMs生成问题,验证其作为高效工具的潜力。
迈克尔·J·博罗维茨(Michael J. Borowitz)|阿曼达·L·布莱克福德(Amanda L. Blackford)|苏曼·纳吉利亚(Suman Nagelia)|拉尔夫·H·赫鲁班(Ralph H. Hruban)
约翰霍普金斯大学医学院索尔·戈德曼胰腺癌研究中心病理学系,马里兰州巴尔的摩市
摘要
选择题(MCQs)是评估学生和培训生表现的有效工具,但创建这些问题可能耗时且需要专业知识。为了测试大型语言模型(LLMs)生成的病理学试题的质量,一位人类专家编写了100道关于胰腺病理的题目,另外两个大型语言模型(Chat GPT4.0和Gemini 2.5 Flash)各自生成了50道题目。初步审查后,发现这两个LLM生成的题目中有16%需要通过额外的互动提示进行修改。最终的问题集由190名具有不同背景和专业知识水平的志愿者进行了评估。我们发现:Chat GPT生成的题目比人类专家编写的题目更容易回答;与人类专家编写的题目相比,LLM生成的题目中较差/不可接受的题目比例略高(11.7% vs 10.1%,OR 1.64,95% CI: 1.13, 2.37,p=0.009);但在被评为良好或优秀的题目比例上没有差异。从质量上看,人类专家编写的题目被认为更具临床实用性,但同时也被认为更加不一致,有时会测试一些琐碎的知识点。人类专家编写的题目与LLM生成的题目在平均得分上没有差异(0.31 vs 0.29,p=0.56)。随着大型语言模型的改进,它们将成为高效生成大量高质量病理学试题的实用工具。
引言
设计良好的选择题(MCQs)是评估学生和培训生表现的有效工具。选择题可以用来测试各种概念,涵盖广泛的知识领域,实施效率高,并能生成大量关于表现的数据。因此,选择题在医学教育中的使用并不令人意外。然而,编写高质量的选择题既耗时又需要丰富的专业知识。Law等人计算出编写一道选择题可能需要一个小时的时间,Gupta等人发现即使是经验丰富的教师也常常缺乏准备高质量选择题所需的技能。
学术医疗中心的教师在他们的学术工作中使用大型语言模型(LLMs),包括利用这些模型来创建基于选择题的考试。然而,相关结果褒贬不一。Kim和Lee使用Chat GPT-4生成了泌尿学领域的试题,发现其中5%的题目需要修改,因为存在歧义,还有15%的题目没有价值,因为所有参加测试的人要么都答对了,要么都答错了。相比之下,Wu等人比较了人类(新手和专家)编写的选择题与Chat GPT-4生成的选择题,发现两者在总体评价上没有差异。在为医学生生成选择题的过程中,以及放射学、药物治疗学、皮肤病学、急诊医学和病理学等领域,也得到了类似的混合结果。
我们假设通过结合最新的大型语言模型、可信的资源作为输入(所谓的接收者增强生成,RAG)以及迭代提示,可以创建高质量的选择题。为了验证这一假设,我们比较了由内容专家生成的选择题与使用当前模型和最佳实践生成的大型语言模型生成的选择题的质量。在与大型语言模型互动的过程中,我们学到了一些提高试题质量的方法,这些方法在这里分享,以便其他人也能利用这种高效的问题生成工具。
材料与方法
约翰霍普金斯大学医学院的机构审查委员会批准了这项研究。
结果
研究参与者:在参与这项研究的190名志愿者中,近一半(45%)是学术病理学家(表1)。四分之三(78%)认为自己是胰腺病理学专家,93%的人拥有博士学位。近60%的参与者报告有≥5年的工作经验。不同参与者回答的题目数量存在显著差异,其中48人回答了全部50道题目(图3)。
讨论
由于财务和其他压力的不断增加,学术医疗中心的教师和培训生(包括病理学家)普遍感到压力巨大且“精疲力尽”。由于这些压力,学术教育工作者可用于教育工作的时间变得越来越少。能够节省时间并减少工作量的工具有可能缓解这种压力。在这项研究中,我们比较了由两个不同来源生成的一系列关于胰腺肿瘤的选择题。
作者贡献
MJB、ALB和RHH负责研究设计、数据解释和手稿撰写;SN负责网页设计和手稿撰写。
伦理批准和参与同意
约翰霍普金斯大学医学院的机构审查委员会批准了这项研究。患者通过在线方式表示同意。致谢
作者感谢Jason L. Hornick博士和美国病理学登记处允许我们使用《武装部队肿瘤与非肿瘤病理图谱》中的第五系列“胰腺肿瘤”资料。我们感谢Manas Nagelia在开发网页门户方面的帮助,以及Martine Uveges和R.J. Malacas提供的指导。资金支持
无