大型语言模型作为危重儿童初始治疗中的临床决策支持工具:一项初步评估

《European Journal of Pediatrics》:Large language model as a clinical decision support tool in the initial management of critically ill children: a pilot evaluation

【字体: 时间:2025年11月16日 来源:European Journal of Pediatrics 2.6

编辑推荐:

  ChatGPT-4.0在儿童重症监护早期管理中表现诊断准确率94%-98%但治疗建议准确率仅82%且存在7%-10%潜在危害,需谨慎应用

  

摘要

像ChatGPT这样的大型语言模型(LLMs)正被探索作为临床决策支持工具,但它们在儿科急性护理中的可靠性仍不确定。这项初步研究使用真实世界的临床数据评估了ChatGPT-4.0在重症儿童早期管理中的表现。我们回顾性分析了20名从急诊科(ED)紧急转入三级儿科重症监护病房(PICU)的儿童。在四个时间点对ChatGPT-4.0进行了提示:急诊科到达时(诊断和治疗计划)、急诊科转科时(鉴别诊断和住院决定)、PICU入住时(诊断和治疗计划)以及PICU入住24小时后(鉴别诊断)。将输出结果与实际护理进行比较,并评估其准确性、安全性和遗漏情况。在急诊科和PICU入住时,94%(95%置信区间,91–97%)和98%(95%置信区间,95–99%)的诊断建议被认为是适当的。然而,在这两个时间点,只有82%(95%置信区间,76–87%)的治疗建议被认为是适当的(p?p?=?0.016),PICU为10% vs 0%(p?p?=?0.0073)。正确的诊断在所有急诊科出院病例中都得到了确认,在PICU入住24小时后的鉴别诊断中为95%(95%置信区间,85–100%)。所有PICU病例的分诊决策都是准确的。

结论:ChatGPT-4.0在诊断和分诊方面表现良好,但在治疗决策和更广泛的儿科应用中仍需谨慎。

已知内容:

• 像ChatGPT这样的大型语言模型正被探索作为临床支持工具。

• 它们的诊断潜力已在成人中得到研究,但使用真实患者病例的儿科数据有限。

新发现:

• 这是首次在真实PICU病例中评估ChatGPT的研究。

• 它在诊断和分诊方面表现良好,但在治疗决策方面仍需谨慎。

像ChatGPT这样的大型语言模型(LLMs)正被探索作为临床决策支持工具,但它们在儿科急性护理中的可靠性仍不确定。这项初步研究使用真实世界的临床数据评估了ChatGPT-4.0在重症儿童早期管理中的表现。我们回顾性分析了20名从急诊科(ED)紧急转入三级儿科重症监护病房(PICU)的儿童。在四个时间点对ChatGPT-4.0进行了提示:急诊科到达时(诊断和治疗计划)、急诊科转科时(鉴别诊断和住院决定)、PICU入住时(诊断和治疗计划)以及PICU入住24小时后(鉴别诊断)。将输出结果与实际护理进行比较,并评估其准确性、安全性和遗漏情况。在急诊科和PICU入住时,94%(95%置信区间,91–97%)和98%(95%置信区间,95–99%)的诊断建议被认为是适当的。然而,在这两个时间点,只有82%(95%置信区间,76–87%)的治疗建议被认为是适当的(p?p?=?0.016),PICU为10% vs 0%(p?p?=?0.0073)。正确的诊断在所有急诊科出院病例中都得到了确认,在PICU入住24小时后的鉴别诊断中为95%(95%置信区间,85–100%)。所有PICU病例的分诊决策都是准确的。

结论:ChatGPT-4.0在诊断和分诊方面表现良好,但在治疗决策和更广泛的儿科应用中仍需谨慎。

已知内容:

• 像ChatGPT这样的大型语言模型正被探索作为临床支持工具。

• 它们的诊断潜力已在成人中得到研究,但使用真实患者病例的儿科数据有限。

新发现:

• 这是首次在真实PICU病例中评估ChatGPT的研究。

• 它在诊断和分诊方面表现良好,但在治疗决策方面仍需谨慎。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号