ChatGPT 用于轻度创伤性脑损伤临床决策:潜力与局限并存

【字体: 时间:2025年03月13日 来源:BMC Emergency Medicine 2.3

编辑推荐:

  为评估 ChatGPT 对轻度创伤性脑损伤(TBI)临床决策的辅助作用,研究发现其有潜力但存局限,意义重大。

  ### 研究背景
在全球范围内,创伤性脑损伤(Traumatic Brain Injury,TBI)是导致残疾和死亡的重要原因。在美国,每年约有 250 万例与 TBI 相关的急诊科(Emergency Department,ED)就诊案例,其中高达 75% 被归类为轻度 TBI。别看是 “轻度”,它带来的影响可不小。在急性期,患者可能会出现头痛、头晕、疲劳、烦躁、注意力不集中等症状;长期来看,部分患者还会有认知功能障碍,比如执行功能受损。而且,TBI 尤其是儿童患者的身体症状往往很隐匿,容易被忽视,导致人们低估了这种疾病的真实负担。
在急诊科,多数 TBI 患者首次接受评估,但这里的诊断错误率估计在 5.7 - 14%。轻度 TBI 的症状不明显,很容易造成漏诊,影响患者及时获得恰当的治疗。虽然多数轻度 TBI 患者有望康复且不留下长期残疾,但恢复时间延长的情况并不少见。因此,解决急诊科的诊断难题,对降低并发症风险、确保患者得到合适的后续治疗至关重要。

目前,常用风险评分和临床决策支持系统(如在线平台 UpToDate)辅助决策。不过,人工智能(Artificial Intelligence,AI)的发展为改善临床工作流程带来新机遇。OpenAI 的 ChatGPT 因能处理复杂医学信息并快速给出回复,受到广泛关注。不少研究探索了 ChatGPT 在医学领域的应用,比如解读影像学研究、生成患者教育材料、辅助诊断推理等。但它的可靠性也引发担忧,关键错误可能会影响患者的治疗结果。

基于此,研究人员开展了一项研究,评估 GPT-4 在轻度 TBI 病例中支持临床决策的能力,研究成果发表在《BMC Emergency Medicine》上。这项研究意义重大,如果能明确 ChatGPT 在轻度 TBI 临床决策中的作用,将为临床医生提供新的辅助工具,改善患者的治疗效果。

研究方法


该研究于 2024 年 3 月 14 日至 5 月 1 日进行,由于未使用患者数据,所以无需伦理审批。研究人员从 PubMed Central 中筛选出 17 例轻度 TBI 病例,这些病例是通过搜索 “minor head injury [Title] OR minor head injury [Title] AND emergency [Title/Abstract]”,并筛选英文病例报告得到的。2024 年 4 月 11 日至 20 日,研究人员使用 GPT-4(2024 年 3 月 21 日版本)对每个病例进行分析,具体操作是由一名研究人员上传每个病例的摘要,并向 ChatGPT 提出 “What do you think about this case?” 的问题,记录回复用于后续评估。

为确保评估的专业性,研究邀请了 4 名来自土耳其、获得土耳其医学委员会认证的急诊医学专家作为评估人员。这些专家都是有 5 - 10 年急诊医学经验的主治医师,排除了实习生和住院医师。

为减少潜在偏差,研究人员手动随机排列问题和 ChatGPT 生成的答案,打乱顺序后发送给评估人员。评估人员在不知情的情况下对回复进行评估,他们通过 Google 文档接收随机化的问题和答案,独立进行评估且不知道其他评估人员的评价结果。

评估从三个方面进行:一是理解难度,评估人员根据专业判断,用 7 分制李克特量表从 1(强烈不同意)到 7(强烈同意)对回复的清晰度进行评分;二是科学合理性,评估回复是否符合循证医学指南,能否准确处理临床场景,判断信息是否正确、完整,是否与轻度 TBI 管理的既定临床实践一致;三是满意度,评估回复在指导临床护理方面的整体有用性,即评估人员是否有信心依据回复做出临床决策。研究还对关键错误进行了定义,关键错误是指可能导致严重发病率或死亡率的错误建议或遗漏,比如遗漏影像学检查的指征、推荐不必要的干预措施、忽视表明严重并发症的症状等。

此外,研究人员使用 Flesch Reading Ease 评分和 Flesch-Kincaid Grade Level 工具评估 ChatGPT 回复的可读性,用 SPSS 21 进行数据分析,通过 Kolmogorov-Smirnov 检验评估数据分布的正态性,根据数据情况选择合适的统计检验方法,设定统计学显著性为

研究结果


  • 回复评估:17 例轻度 TBI 病例分析完成后,ChatGPT 的回复接受了评估。结果显示,有 5 个回复(29.4%)存在关键错误。在理解难度方面,存在关键错误的回复平均得分为 5.1 ± 1.2,无关键错误的回复平均得分为 5.6 ± 1.1,两者差异无统计学意义();科学合理性方面,存在关键错误的回复平均得分显著低于无关键错误的回复(4.2 ± 1.3 vs 6.1 ± 0.9,);满意度方面,存在关键错误的回复平均得分也明显低于无关键错误的回复(3.9 ± 1.5 vs 5.8±1.0,)。
  • 可读性分析:ChatGPT 回复的可读性比病例描述更具挑战性。Flesch Reading Ease 评分显示,ChatGPT 回复得分为 35.4 ± 5.6,属于 “困难” 级别,而病例描述得分为 56.8 ± 7.2,属于 “较困难” 级别();Flesch-Kincaid Grade Level 结果表明,ChatGPT 回复的平均等级为 11.5 ± 1.2,病例描述为 8.2 ± 1.5()。
  • 关键错误案例:以病例 3 为例,一个幼儿从 50 厘米高处摔倒后出现左上肢活动障碍,症状逐渐加重,无法抓握物体,既往有多次保姆肘病史。ChatGPT 的回复主要关注潜在创伤性损伤,如骨折、脱位,强调影像学检查和神经系统检查的必要性,提到了神经损伤,但未考虑到严重的潜在神经系统事件,如中风,而该病例的表现强烈提示这种可能性。这一遗漏属于关键错误,可能导致因未能及时干预而使病情恶化。

研究结论与讨论


综合来看,这项研究评估了 ChatGPT 用于轻度 TBI 临床决策的利弊。基于专家评估,ChatGPT 在科学合理性和可理解性方面,可能适用于轻度头部创伤的管理。但部分病例中出现的关键错误凸显了其局限性,这些错误降低了回复的科学性和评估人员的满意度。而且,ChatGPT 回复的可读性较差,这对忙碌的急诊科临床医生来说是个挑战。

从应用角度看,ChatGPT 理论上可以辅助急诊科临床医生。对于遵循既定协议的简单病例,它能整合循证医学指南,简化决策过程;对于经验不足的医生,它可作为知识资源,实时提供最佳实践的结构化总结,弥补知识差距;它还能协助生成简化的出院说明,解决复杂医学信息难以转化为通俗易懂语言的问题。不过,ChatGPT 不能独立作为决策者,因其在处理复杂病例时存在局限性且容易出现关键错误,需要医疗专业人员密切监督。同时,提高其输出内容的可读性和可及性,能增强它在临床环境中的实用性。

此外,将 ChatGPT 等 AI 系统整合到临床实践中,还引发了一系列伦理问题,如算法偏见、问责制、透明度、隐私以及对医患关系的潜在影响等,需要谨慎考虑并妥善解决。

总体而言,ChatGPT 在轻度 TBI 临床决策中展现出一定潜力,但目前还存在诸多不足。后续需要进一步研究和改进,以更好地将其应用于临床护理,尤其是在时间紧迫、决策准确性要求高的急诊科。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号