编辑推荐:
为解决放射科住院医师报告技能评估与反馈难题,研究人员开展 “评估大语言模型(LLMs)修订放射科报告的有效性及住院医师报告技能发展” 研究。结果显示 GPT-4o 与放射科医生一致性最高,部分标准下住院医师报告技能提升显著。该研究为住院医师教育助力。
在当今医学领域,人工智能(AI)的浪潮正席卷而来,大语言模型(LLMs)作为 AI 的前沿技术,逐渐渗透到各个医疗环节。在放射科,准确的报告对于疾病诊断和治疗决策至关重要。然而,传统的放射科住院医师报告技能评估主要依赖放射科医生的人工反馈,这面临着诸多挑战。一方面,放射科医生工作繁忙,每年需要评估大量住院医师撰写的报告,难以做到对每份报告进行细致、客观的评价,也无法针对特定报告元素提供有针对性的反馈。另一方面,缺乏客观的评估手段,难以追踪住院医师报告技能随时间的成长情况。因此,如何利用 LLMs 优化放射科住院医师的教育和评估,成为亟待解决的问题。
为了攻克这些难题,大阪 Metropolitan 大学的研究人员展开了一项具有重要意义的研究。他们旨在评估 LLMs 在修订放射科报告方面的有效性,并分析住院医师报告技能随时间的发展变化。该研究成果发表在《Japanese Journal of Radiology》上,为放射科住院医师的教育和培训开辟了新的路径。
研究人员采用了一系列严谨的技术方法。首先,进行回顾性研究,收集了 2020 - 2022 年 9 名第一年放射科住院医师撰写的连续计算机断层扫描(CT)和磁共振成像(MRI)报告。这些报告均经过 board - certified 放射科医生的审核。研究设计分为两个阶段:LLM 选择与提示调整阶段以及住院医师报告技能评估阶段。在 LLM 选择阶段,从众多报告中随机选取部分报告,基于六个评估标准开发相应提示,并让三个 LLMs(ChatGPT - 4 Omni(GPT - 4o)、Claude - 3.5 Sonnet、Claude - 3 Opus)进行评估,同时由两名经验丰富的 board - certified 放射科医生对报告进行独立审核,通过计算 kappa 系数确定与放射科医生一致性最高的 LLM。在住院医师报告技能评估阶段,将住院医师第一年的报告按时间分层,从最初和最后 3 个月的报告中随机选取,使用表现最佳的 LLM 结合六个评估标准进行分析,最后利用统计分析方法(如 Wilcoxon Signed - Rank 检验)比较报告修订率的差异 。
研究结果主要从以下几个方面呈现:
- 模型选择阶段:通过计算 kappa 系数评估放射科医生之间以及放射科医生与 LLMs 之间的一致性。结果显示,两名放射科医生之间在所有标准上的一致性都很高,kappa 系数范围为 0.84 - 1.00。在与 LLMs 的比较中,GPT - 4o 与放射科医生的一致性在部分标准上表现出色,如在 “添加遗漏的阳性发现”“删除发现” 和 “建议额外检查或治疗” 这三个标准上,kappa 系数在 0.67 - 0.74 之间,准确性分数在 0.85 - 0.98 之间,显著高于其他两个 LLMs,因此被选用于后续对住院医师报告技能的评估。
- 住院医师报告评估阶段:对比 9 名第一年住院医师在最初和最后 3 个月撰写的放射科报告,发现 “添加遗漏的阳性发现”(P<0.001)、“删除发现”(P=0.023)和 “添加阴性发现”(P=0.004)这三个标准有显著改善。虽然 “发现表达的修正”“诊断的修正” 和 “建议额外检查或治疗” 这三个标准没有显著变化,但 “发现表达的修正” 和 “诊断的修正” 随时间仍呈现出改善的趋势。从个体来看,不同住院医师的报告技能提升情况存在差异,部分住院医师如 2、4、5、8 号提升显著,而 1、2、4、9 号提升较少,3 号有部分改善 。
研究结论和讨论部分进一步强调了该研究的重要意义。LLMs 能够有效地对放射科报告中常见的修正领域提供反馈,帮助住院医师客观地识别和改进自身的弱点,同时也有助于减轻放射科医生导师的工作量。然而,研究也存在一些局限性。例如,并非所有住院医师都在同一机构完成住院医师培训,影响了对报告写作技能一致性改进的评估;同一报告中同一标准多次修订仅计为一次,可能导致评估与实际技能存在偏差;六个评估标准可能不足以全面评估住院医师报告;未对 LLMs 进行微调等。尽管如此,随着 LLMs 技术的不断进步,有望克服这些局限,更准确地评估放射科住院医师的报告技能,为医学教育提供更有力的支持,推动放射科住院医师教育向更高效、精准的方向发展。