编辑推荐:
为评估 ChatGPT 4o和 ChatGPT 4o mini 在腰椎间盘突出症(LDH)诊疗中的临床支持能力,研究人员用 NASS 临床指南的问题进行测试并分析。结果显示二者均有较强能力,ChatGPT 4o更全面,该研究为 AI 在脊柱医疗的应用提供依据。
在日常生活中,腰痛是一种极为常见的困扰,大约 80% 的人在一生中都曾被它纠缠。而腰椎间盘突出症(Lumbar Disc Herniation,LDH)是导致腰痛的常见 “元凶” 之一,多发于 30 - 50 岁人群,男性发病率约为女性的 2 倍。目前,临床处理腰痛需要多学科协作,且要综合考虑多种预后因素 。同时,医学领域不断发展,如何借助新兴技术提升医疗服务质量成为重要课题。人工智能(Artificial Intelligence,AI)近年来发展迅猛,ChatGPT 作为先进的 AI 系统,在医学领域展现出一定潜力,它能理解文本并模拟人类回答,甚至通过了美国医学执照考试部分科目。但在腰椎间盘突出症诊疗方面,其表现究竟如何,是否能为临床提供有效支持,仍有待探究。基于此,山东大学相关研究人员开展了一项研究,旨在评估 ChatGPT 4
o和 ChatGPT 4
o mini 在腰椎间盘突出症诊疗中的临床支持能力,该研究成果发表于《European Journal of Medical Research》 。
研究人员主要采用了以下关键技术方法:首先,从 2012 年 NASS 临床指南中选取 21 个关于腰椎间盘突出症诊疗的问题,将其输入 ChatGPT 4o和 ChatGPT 4o mini ;其次,从山东大学第二医院住院病例数据库随机选取 53 例患者的 MRI 影像,由两位骨科医生评估后选取最严重病变图像输入 ChatGPT 4o ;最后,让五位至少有三年经验的骨科医生用 5 分制李克特量表评估回答的准确性和完整性,7 分制量表评估可靠性,同时计算 Flesch 阅读易度分数评估可读性,运用多种统计分析方法对数据进行处理。
下面来详细看看研究结果:
- ChatGPT 4o与 ChatGPT 4o mini 的比较:在准确性方面,ChatGPT 4o mini 平均得分为 4.63,ChatGPT 4o为 4.65,二者均超 75% 正确率,且差异无统计学意义;完整性上,ChatGPT 4o mini 得分 4.57,ChatGPT 4o为 4.72,ChatGPT 4o更具优势;可靠性方面,ChatGPT 4o mini 得 6.29,ChatGPT 4o得 6.43,差异不显著。整体来看,二者表现相近,但 ChatGPT 4o在完整性上更胜一筹。
- 两个模型的组间差异:研究人员将 21 个问题分为定义和病史、诊断、非手术干预、手术干预、预后 5 组。发现定义和病史组在准确性、完整性和可靠性上得分最高,预后组得分较低。不同组间,ChatGPT 4o mini 在准确性和可靠性上差异显著,ChatGPT 4o仅在可靠性上差异显著,表明 ChatGPT 4o相对更稳定。
- 可读性测试:ChatGPT 4o mini 的 Flesch 阅读易度分数为 19.72,ChatGPT 4o为 17.41,均被评为 “极难阅读”,相当于大学毕业生阅读水平,比 NASS 临床指南的 “专业” 阅读水平更难理解,这对公众尤其是医学知识匮乏者存在一定阅读障碍。
- 腰椎间盘突出症的识别:ChatGPT 4o对 LDH 识别的精确率、召回率和 F1 分数均超 0.80 ,整体准确率达 0.81,ROC 曲线下面积(AUC)为 0.80,Kappa 值为 0.61,表明其与医生诊断有中等程度一致性,但仍有提升空间。
综合研究结论和讨论部分,该研究证实了 ChatGPT 4o和 ChatGPT 4o mini 在腰椎间盘突出症诊疗方面具备提供准确、全面且可靠医疗信息的潜力。虽然二者在准确性和可靠性上差异不明显,但 ChatGPT 4o在完整性上表现更好,更适用于对信息完整性要求高的场景。然而,AI 生成内容可读性差,且偶尔会使用如 “肿瘤” 等易误导患者、引发焦虑的词汇。此外,研究也存在局限性,如问题基于 NASS 指南,可能无法完全反映门诊实际情况;骨科医生评估具有主观性;仅研究了这两种模型在腰椎间盘突出症的表现等。尽管如此,该研究为 AI 在脊柱医疗领域的应用提供了实证依据,有助于推动 AI 在医疗行业的优化和改进,未来有望通过改进 AI 技术,提升其在医疗领域的服务质量,更好地辅助医生诊疗,为患者带来更优质的医疗服务。