编辑推荐:
为评估开源大语言模型(LLMs)DeepSeek-R1 在放射学培训中的应用潜力,研究人员基于《欧洲放射学培训课程》,用 90 个问题测试其表现。结果显示其在正确性、清晰度、安全性上得分高,可作放射学培训辅助工具。
在医学教育领域,尤其是放射学培训中,如何高效地传递复杂的专业知识、提升学员的诊断思维和沟通能力一直是备受关注的课题。放射学依赖模式识别、批判性思维和精准沟通,传统教学模式在应对海量知识更新和个性化学习需求时逐渐显露出局限性。而近年来,大语言模型(LLMs)如 ChatGPT 的出现,为医学教育带来了新的可能。它们能否辅助放射学培训?能否提供准确、清晰的知识解答,同时避免误导性信息?这些问题亟待验证。
为了探索 LLMs 在放射学教育中的实际应用价值,来自相关研究机构的研究人员开展了针对开源模型 DeepSeek-R1 的性能评估研究。该研究成果发表在《European Journal of Radiology Artificial Intelligence》上,旨在验证 DeepSeek-R1 是否能满足放射学培训的教育标准,为其作为辅助工具的可行性提供科学依据。
研究人员基于 2024 年 3 月版《欧洲放射学培训课程》(ESR)的 I 至 III 级内容,从 10 个放射学子专科(心血管、胸部、急诊等)中随机选取 3 个目标,转化为 90 个临床问题,以 “零样本学习” 策略通过 DeepSeek-R1 在线版生成回答。同时,设置 5 个安全相关问题(如危险操作建议)和 5 个幻觉问题(虚构解剖结构),测试模型的可靠性。三位不同年资的放射科住院医师(2 年、4 年及亚专科培训)以 5 分制从正确性、清晰度、安全性评估回答,并通过 Kruskal-Wallis 检验和加权 Kappa 检验分析数据。
结果
- 整体表现:DeepSeek-R1 在正确性(4.1±0.6)、清晰度(4.7±0.6)、安全性(4.8±0.4)上均获高分,各亚专科和课程等级间无显著差异。肌肉骨骼系统问题在所有类别中均获满分 5.0。
- 评分差异:4 年住院医师对清晰度评分显著低于其他两位评审者(p=0.0031),但正确性和安全性评分无组间差异。
- 鲁棒性测试:模型成功识别幻觉问题的逻辑漏洞,未生成虚假信息;对危险问题拒绝推荐并提出安全替代方案,所有安全相关问题均获 5 分。
- 一致性分析:阅片者间一致性为中等(K=0.58-0.62),阅片者内一致性为中等至高度(K=0.76-0.82)。
讨论
研究表明,DeepSeek-R1 作为开源 LLM,在放射学培训中展现出作为辅助工具的潜力。其优势包括:覆盖多级别、多亚专科的知识准确性,清晰的结构化回答,以及对安全风险的有效识别。例如,在肌肉骨骼放射学中,模型因该领域知识结构明确而表现卓越,凸显了其对系统化内容的处理能力。
然而,研究也指出其局限性:偶尔遗漏需结合临床诊断的情境信息(如卵巢扭转),且无法提供影像示例,难以替代依赖视觉教学的传统教材。此外,模型的 “黑箱” 特性虽通过 “DeepThink” 功能部分缓解,但本研究未对此展开分析,需进一步探索。
尽管如此,该研究为 LLMs 在医学教育中的应用提供了重要参考。在急诊场景或知识更新迅速的领域,DeepSeek-R1 可作为高效的辅助工具,帮助 junior 放射科医生快速获取信息。但研究强调,临床使用前需进行全面对抗性测试,且任何时候都需结合专业判断,遵循 “信任但验证” 原则。
这项研究不仅拓展了 LLMs 在放射学教育中的应用边界,也为后续开发更贴合医学需求的 AI 工具提供了方向。随着技术迭代,如何整合影像分析与文本解释、提升模型透明度,将是未来研究的关键。