利用大型语言模型为眼科教育生成多项选择题

【字体: 时间:2025年10月17日 来源:JAMA Ophthalmology 9.2

编辑推荐:

  LLM生成的眼科多选题质量与专家团队相当,但在区分度上略逊一筹。通过10位专家评估显示,GPT-4生成的题目在适当性、清晰度、相关性等指标得分与人工题库无显著差异,且95%以上题目与现有内容相似度低于60,表明具有较高新颖性。研究证实LLM可有效扩展眼科考试题库,但需进一步验证区分能力及可读性。

  
要点

问题 通用领域的大型语言模型(LLM)能否生成高质量的眼科选择题(MCQ)?

研究结果 在这项调查研究中,由10位独立的眼科医生进行评估,LLM生成的MCQ在质量上与由专家委员会编写的MCQ相当,涵盖了5个关键方面:适当性、清晰度和特异性、相关性、区分度以及适合培训生的程度。此外,近95%的LLM生成的MCQ的相似度得分低于60(满分100分,表示内容完全相同),这表明大多数LLM生成的MCQ与现有内容相似度较低或没有相似之处。

意义 LLM通过生成高质量的检查内容,有潜力提升眼科住院医师的教育水平。

摘要

重要性 选择题(MCQ)是眼科住院医师培训评估和资格考试的重要组成部分;然而,编写高质量的问题既困难又耗时。

目的 评估通用领域的大型语言模型(LLM),特别是OpenAI的Generative Pre-trained Transformer 4(GPT-4),是否能够可靠地生成高质量、新颖且易于阅读的MCQ,与经验丰富的试题编写专家委员会的水平相当。

设计、研究环境和参与者 这项调查研究于2024年9月至2025年4月进行,评估了LLM生成MCQ的表现,这些MCQ基于美国眼科学会(AAO)的《基础与临床科学课程》(BCSC)。10位专家眼科医生在不知道试题来源的情况下,使用10点李克特量表(1=极差;10=标准质量)对MCQ进行了独立评估,评估标准包括适当性、清晰度和特异性、相关性、区分度以及适合培训生的程度。

干预措施 将相关的BCSC内容和AAO的试题编写指南通过微软的Azure OpenAI服务输入到GPT-4中,并使用结构化提示来生成MCQ。

主要结果和测量指标 主要结果包括使用自助法计算的中位数分数以及统计比较;基于Levenshtein距离的字符串相似度得分(0-100分,100分表示内容完全相同);Flesch阅读易度指标用于评估可读性;以及评分者间一致性系数(ICC)。

结果 10位评分者在眼科领域的临床经验从1年到28年不等(中位数[IQR]为6年[3-15年]。GPT-4和专家委员会生成的试题在综合得分、适当性、清晰度和特异性、相关性方面的中位数分数分别为9分(差异为0;95%置信区间为0-0;P > 0.99);在区分度方面的中位数分数分别为8分(差异为1;95%置信区间为-1至1;P = 0.52);在适合培训生方面的中位数分数也为8分(差异为0;95%置信区间为-1至0;P = 0.99)。近95%的LLM生成的MCQ的相似度得分低于60,表明大多数LLM生成的MCQ与现有内容相似度较低或没有相似之处。评分者间的可靠性处于中等水平(ICC为0.63;P < 0.001),且不同来源的试题平均可读性分数相似(GPT-4生成的试题为37.14 [22.54]分,专家委员会生成的试题为42.60 [22.84]分;P > 0.99)。

结论和相关性 这项研究表明,LLM可以用于开发符合眼科资格考试标准的MCQ,并扩充试题库,以进一步支持眼科住院医师的培训。尽管大多数LLM生成的试题相似度较低,但其质量、新颖性和可读性仍需进一步评估。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号