
-
生物通官微
陪你抓住生命科技
跳动的脉搏
评估不同版本的ChatGPT在老年医学剧本一致性测试方面与专家意见的契合程度
《European Geriatric Medicine》:Evaluating how different versions of ChatGPT align with expert opinions on geriatric script concordance tests
【字体: 大 中 小 】 时间:2025年10月22日 来源:European Geriatric Medicine 3.6
编辑推荐:
评估ChatGPT-3.5/4/4o/5在老年医学脚本一致性测试(SCT)中的表现,并与43位专家对比。结果显示GPT-4(15.6/20)和GPT-5(15.2/20)接近专家水平,平均匹配度45%,而GPT-3.5仅8/20,4o略低。研究证实高级LLM具备模拟临床推理、辅助自主学习及形成性评估潜力,但需注意版本差异与题域扩展问题。
大型语言模型(LLMs),如ChatGPT,在医学教育中得到了越来越多的应用,尤其是在培养临床推理能力方面。脚本一致性测试(SCTs)是评估在不确定性环境下推理能力的有效工具。我们的目标是评估四个版本的ChatGPT(3.5、4、4o和5)在SCTs中的表现,并与老年医学专家进行对比。
我们向ChatGPT-3.5、4、4o和5以及43位专家分别展示了20个经过验证的、涵盖多种老年医学主题的SCT问题。SCTs使用五点李克特量表来评估回答,得分参考的是专家们的综合答案。性能评估基于与大多数专家答案的一致性。
ChatGPT-3.5的得分为8/20,在15%的回答上与大多数专家的观点一致。ChatGPT-4和ChatGPT-5的表现显著提升,分别获得了15.6/20和15.2/20的分数,在45%的回答上与大多数专家的观点一致。ChatGPT-4o的得分为13.6/20,略低于ChatGPT-4,这可能是由于其架构或训练数据的差异所致。虽然ChatGPT-4和ChatGPT-5在推理和连贯性方面表现优异,但ChatGPT-3.5在处理复杂的临床场景时存在困难。
ChatGPT-4和ChatGPT-5在基于SCT的推理任务中与老年医学专家的表现相当,显示出其在医学教育中的潜力。它们可以模拟病例讨论,增强自主学习能力,并支持形成性评估。然而,由于不同版本之间的差异以及特定问题的挑战,仍需进一步评估LLMs在更广泛临床领域的应用效果。这些发现支持将先进的LLMs整合到医学教育中,以补充传统的教学方法。
评估ChatGPT 3.5、4、4o和5版本在老年医学领域的脚本一致性测试中的表现,并与全国学术专家进行对比。
摘要部分 结果ChatGPT-4和ChatGPT-5的表现最佳,接近专家水平;而ChatGPT-3.5与专家答案的一致性较低。ChatGPT-4o的表现略低于ChatGPT-4和ChatGPT-5,这可能是由于其架构上的差异。
摘要部分 结论像ChatGPT-4和ChatGPT-5这样的先进LLMs在老年医学教育中作为培养临床推理能力的教育工具具有很大的潜力。
生物通微信公众号
知名企业招聘