编辑推荐:
为探究人工智能(AI)在运动外科和物理治疗临床决策中的应用效果,研究人员开展了比较 GPT-4 和 GPT-3.5 性能的横断面研究。结果显示,GPT-4 在各项评估标准上均显著优于 GPT-3.5。该研究为 AI 在专业医疗领域的应用提供了重要参考。
在医疗领域,人工智能(AI)近年来发展迅猛,尤其是在临床决策过程中的应用越来越广泛。大型语言模型(LLMs)如 GPT 系列,凭借自然语言处理(NLP)技术的进步,在医疗决策和患者管理等复杂任务中展现出巨大潜力。已有研究探索了 AI 在心脏病学、皮肤病学等领域的应用,然而在运动外科和物理治疗这些需要高度专业知识的领域,AI 技术的表现却鲜少被深入研究。
运动外科和物理治疗涉及复杂的临床决策过程,准确诊断和有效治疗对患者康复及运动员职业生涯至关重要。尽管 AI 在普通医疗实践中的研究日益增多,但在这些专业领域的综合评估却十分匮乏。此前一些关于 AI 在肌肉骨骼疾病方面的研究,也未能充分探究其在运动外科和物理治疗特定临床决策过程中的作用。
为了填补这一知识空白,来自土耳其杜兹切大学(Duzce University)的研究人员开展了一项具有重要意义的研究。他们系统地评估和比较了 GPT-4 和 GPT-3.5 这两种 AI 模型在运动外科和物理治疗临床决策中的性能,旨在为医疗专业人员提供有关 AI 驱动决策支持系统优缺点的信息,推动 AI 在专业医疗实践中的更广泛应用。该研究成果发表在《BMC Medical Informatics and Decision Making》上。
研究人员采用了多种关键技术方法来开展此项研究。首先,他们设计了一项横断面、观察性和比较性的研究项目,遵循加强流行病学观察性研究报告(STROBE)指南,确保研究方法的严谨性。研究招募了 56 名运动外科和物理治疗专业人员,这些人员均有至少 5 年临床经验且具备 AI 技术基础知识。数据通过谷歌表单匿名收集,研究人员基于医院信息系统中过去 10 年的骨科门诊患者记录,开发了 10 个标准化临床场景,涵盖常见的肌肉骨骼疾病。每个场景分别由 GPT-4 和 GPT-3.5 处理生成诊断、治疗、手术建议和康复方案,经独立专家小组审核验证后,由参与者使用 5 点李克特量表进行评估。最后,研究人员运用多种统计方法,如配对 t 检验、单因素方差分析(ANOVA)和 Cronbach's alpha 系数分析等,对数据进行分析。
研究结果主要围绕以下几个方面展开:
- 模型总体性能比较:配对 t 检验结果显示,GPT-4 在所有场景中的总体表现得分显著高于 GPT-3.5(t(55)=10.45,p<0.001),表明 GPT-4 在诊断、治疗和手术建议等方面更具优势。
- 不同评估者对 GPT-4 的评价差异:独立 t 检验表明,临床医生对 GPT-4 的评分高于学者(t(54)=-2.12,p=0.039)。
- 基于特定标准的模型性能评估:单因素方差分析结果证实,在诊断准确性、治疗适宜性、手术技术细节和康复计划适宜性等所有特定标准上,GPT-4 的表现均显著优于 GPT-3.5。其中,在治疗适宜性(F(1,55)=35.22,p<0.001)和康复计划适宜性(F(1,55)=32.10,p<0.001)方面差异最为明显。
- 模型可靠性分析:Cronbach's alpha 系数分析显示,GPT-4 的评估具有中等程度的内部一致性(α=0.478),而 GPT-3.5 的一致性较低(α=0.234),说明参与者对 GPT-4 的评分在不同标准下更为一致。此外,计算得出的 Cohen's d 值表明,GPT-4 与 GPT-3.5 之间的差异具有较大效应量(d=1.42),而学者和临床医生对 GPT-4 评价的差异为中等效应量(d=0.58) 。
研究结论和讨论部分指出,该研究首次系统地评估和比较了 GPT-4 和 GPT-3.5 在运动外科和物理治疗临床决策中的性能,具有重要的意义。研究结果表明,GPT-4 在多个临床标准上显著优于 GPT-3.5,这可能得益于其更广泛的训练数据集和先进的自然语言处理能力,能够提供更准确、可靠且符合临床实际的建议。然而,研究也存在一定的局限性,如仅研究了 GPT-4 和 GPT-3.5,未涉及其他 AI 模型;使用的标准化临床场景可能无法完全反映真实患者病例的复杂性;场景创建可能存在潜在偏差;AI 模型还存在 “幻觉” 问题等。尽管如此,该研究为 AI 在运动外科和物理治疗领域的应用提供了有价值的参考,提示 AI 可作为辅助工具帮助医疗专业人员提高诊断准确性、优化治疗方案,但不能替代临床专家的判断。未来研究应进一步扩大 AI 模型的测试范围,使用更大、更多样化的数据集,并探索 AI 在真实临床环境中的整合,同时关注 AI 应用的伦理、法律和实际问题,确保其安全有效地应用于医疗领域。