编辑推荐:
这篇综述聚焦于大型语言模型(LLMs)在肌肉骨骼医学领域的应用。研究发现其临床调查范围有限、应用案例冗余,且方法学存在诸多问题,如提示策略描述少、模型输出披露不完整等。这些问题影响其在临床研究中的应用,亟需改进。
大型语言模型(LLMs)在医疗研究中的应用现状与挑战
大型语言模型(LLMs)是一类利用人工神经网络和 Transformer 架构的生成式人工智能(AI)系统。它能通过自注意力机制学习上下文,实现通用语言生成和多种语言处理任务,在医疗领域具有巨大潜力。比如,可加强医患沟通、提高医疗工作者效率、辅助医学教育、优化工作流程等。在肌肉骨骼研究中,LLMs 也参与了不少新探索,其中 ChatGPT 是最受关注的模型之一。
然而,目前 LLMs 在医疗研究中的应用情况究竟如何,方法学是否规范,这些都有待深入探究。本研究旨在梳理 LLMs 在肌肉骨骼医学中的应用案例,并评估相关研究的方法学情况,为未来其在临床研究中的应用提供参考,找出方法学上需要改进的关键之处。研究人员推测,当前 LLMs 的应用案例可能存在重复,且研究在方法学上存在缺陷,比如关键模型和提示细节披露不足。
研究方法
研究人员依据系统评价和荟萃分析的首选报告项目(PRISMA)指南,在 2024 年 6 月对 PubMed、Embase 和 Cochrane Library 数据库进行全面检索。检索策略为:“(‘chatgpt’ OR ‘large language model’) AND (‘orthopedic’ OR ‘orthopaedic’) NOT (‘systematic review’) NOT (‘metaanalysis’ OR ‘meta-analysis’)” 。纳入的研究需描述 LLMs 在骨科手术相关领域的应用,无论其应用于临床还是教育场景。研究采用非随机研究方法学指数(MINORS)标准评估所有纳入研究的质量。
研究结果
最终纳入分析的研究共 114 项,均发表于 2022 - 2024 年。这些研究呈现出多方面的特点:
- 应用案例分布:LLMs 的临床应用主要集中在五个方面。其中,评估回答患者问题能力的研究最多,有 48 项(占 42.1%);其次是评估诊断和管理医疗状况能力的研究,有 24 项(占 21.1%);关于进行骨科检查的研究有 21 项(占 18.4%);分析开发或评估患者教育材料能力的研究有 11 项(占 9.6%);其他应用,如生成图像、出院文件、临床信件、撰写科学摘要和手稿、提高计费效率等方面的研究有 10 项(占 8.8%)。在研究重点方面,大多数研究聚焦于普通骨科(39 项,占 34.2%),其次是骨科运动医学(18 项,占 15.8%)和成人重建外科(17 项,占 14.9%) 。
- 使用的模型:在使用或评估的 LLMs 中,ChatGPT 3.5 最为常见,有 79 项研究涉及(占 69.2%),ChatGPT 4.0 次之,有 47 项研究涉及(占 41.2%)。
- 方法学问题:研究中方法学不一致的情况较为普遍。36 项(占 31.6%)研究未披露具体使用的提示词;64 项(占 56.1%)研究未披露 LLM 生成的具体输出内容;仅有 7 项(占 6.1%)研究评估了不同的提示策略以获取期望的输出。而且,没有研究探讨种族或性别因素对模型输出的影响。
讨论
本研究主要有以下发现:
- 在已发表的文献中,LLMs 最常被用于研究为模拟患者问题提供医学信息的能力,ChatGPT 在这些研究中占据主导地位。这表明当前研究对 LLMs 在医患信息沟通方面的应用关注度较高,但也反映出研究方向的局限性,可能过度集中于单一功能和特定模型。
- 当代研究 LLMs 的文献中,应用案例冗余现象严重,研究范围有限且缺乏验证。大量研究集中在少数几个应用场景,对 LLMs 在医疗领域更广泛的潜在应用挖掘不足,而且缺乏对应用效果的有效验证,这可能影响 LLMs 在实际医疗中的推广和应用。
- 研究在方法学上存在严重问题。提示策略描述不充分、模型规格说明不完整、模型输出披露缺失以及对偏差问题的关注度不足,这些问题使得研究结果的可靠性和可比性受到质疑,阻碍了 LLMs 在临床研究中的科学应用和发展。
研究局限性
本研究存在一些局限性。LLMs 在医疗任务中的应用发展迅速,新的模型不断涌现,能力也在持续扩展。本研究结果可能无法适用于未来的情况,随着技术的进步,LLMs 的应用场景、性能表现以及研究方法都可能发生显著变化。
研究结论
在评估 LLMs 医疗应用案例的研究中,临床调查的范围有限,大多数研究的应用案例存在冗余。由于提示策略描述不常报告、模型规格不完整、未披露确切的模型输出以及在解决偏差问题上的尝试有限,方法学不一致的情况广泛存在,令人担忧。在 LLMs 从医疗研究走向临床应用的过程中,模型的透明度和可信度至关重要。因此,迫切需要制定相关指导方针,推动恰当的方法学实践,探索新的应用案例,以促进该领域的发展。