编辑推荐:
为评估新型大语言模型在科研领域的效能,研究人员对比了 DeepSeek R1、ChatGPT-4 和 ChatGPT-4o 回答肌肉骨骼(MSK)放射学问题的能力。结果显示 ChatGPT-4 和 4o 表现良好,DeepSeek-R1 则多有错误。该研究为模型在临床和学术应用提供参考。
近年来,人工智能(AI)蓬勃发展,深刻改变着社会的方方面面。在医学领域,基于大语言模型(LLM)的聊天机器人逐渐崭露头角,在诸多医学研究中发挥着越来越重要的作用。其中,OpenAI 公司的 ChatGPT 自 2022 年发布初始版本后,迅速在科学界及更广泛的文化领域引起关注,其升级版 ChatGPT-4 和 ChatGPT-4o 更是在医疗健康、学术出版、放射学报告生成等方面得到了深入探索和应用 。然而,对于新兴的大语言模型,其在医学领域尤其是肌肉骨骼(MSK)放射学中的表现,还缺乏足够的研究和了解。2025 年 1 月,中国 DeepSeek 公司发布的 DeepSeek-R1 模型,因训练成本低且性能宣称与 ChatGPT 相当而受到广泛关注,但关于它在学术和临床环境中的表现,特别是在肌肉骨骼放射学领域的研究却非常稀少。为填补这一空白,了解不同大语言模型在该领域回答科学问题的准确性,研究人员开展了此项研究。该研究成果发表在《Clinical Imaging》杂志上,为后续大语言模型在肌肉骨骼放射学临床和学术实践中的应用提供了重要参考依据。
在这项研究中,研究人员采用了对比分析的方法。他们精心设计了十个标准化的肌肉骨骼放射学问题,让 ChatGPT-4、ChatGPT-4o 和 DeepSeek-R1 分别作答。随后,由一名肌肉骨骼放射科医生和一名肌肉骨骼放射学专业的大四实习生,独立对这些回答进行分析,并使用 1 - 5 分的李克特量表(Likert scale,1 分代表不准确,5 分代表准确)进行评分 。
研究结果
- 回答速度:ChatGPT 和 DeepSeek 在回答问题时速度相近,复杂问题能在 30 秒内回应,简单问题 15 秒内即可完成作答。
- 回答质量:从内容质量来看,ChatGPT-4 和 ChatGPT-4o 表现出色,回答结构清晰,内容详实。二者很多回答几乎一致,主要差异在于 ChatGPT-4o 能更便捷地提供参考文献 。而 DeepSeek-R1 的表现则不尽人意,有五个回答存在严重错误,在被要求提供参考文献时,甚至会编造虚假信息。而且其回答在结构和内容上存在诸多不足,确定性和信息量较低,还包含较多语法错误,甚至会编造一些完全错误的答案,比如对 BACTIP 的解释就是错误的。
研究结论与讨论
综合研究结果可知,在肌肉骨骼放射学领域,与 ChatGPT-4 和 ChatGPT-4o 相比,DeepSeek-R1 整体性能较差。尽管其回答乍看之下似乎合理,但深入检查后会发现存在大量不准确和不可靠的内容。这表明,在当前版本下,DeepSeek-R1 在肌肉骨骼放射学的临床和学术应用中需谨慎使用。不过,研究人员也指出,随着技术的不断迭代,DeepSeek-R1 的准确性或许会有所提升。这项研究作为首次评估 DeepSeek-R1 在肌肉骨骼放射学中性能的研究,为后续进一步研究大语言模型在该领域的应用奠定了基础,也为相关从业者在选择合适的模型辅助工作时提供了重要参考,提醒人们在将新兴大语言模型应用于医学实践时,务必充分考量其准确性和可靠性。