
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型作为危重儿童初始治疗中的临床决策支持工具:一项初步评估
《European Journal of Pediatrics》:Large language model as a clinical decision support tool in the initial management of critically ill children: a pilot evaluation
【字体: 大 中 小 】 时间:2025年11月16日 来源:European Journal of Pediatrics 2.6
编辑推荐:
ChatGPT-4.0在儿童重症监护早期管理中表现诊断准确率94%-98%但治疗建议准确率仅82%且存在7%-10%潜在危害,需谨慎应用
像ChatGPT这样的大型语言模型(LLMs)正被探索作为临床决策支持工具,但它们在儿科急性护理中的可靠性仍不确定。这项初步研究使用真实世界的临床数据评估了ChatGPT-4.0在重症儿童早期管理中的表现。我们回顾性分析了20名从急诊科(ED)紧急转入三级儿科重症监护病房(PICU)的儿童。在四个时间点对ChatGPT-4.0进行了提示:急诊科到达时(诊断和治疗计划)、急诊科转科时(鉴别诊断和住院决定)、PICU入住时(诊断和治疗计划)以及PICU入住24小时后(鉴别诊断)。将输出结果与实际护理进行比较,并评估其准确性、安全性和遗漏情况。在急诊科和PICU入住时,94%(95%置信区间,91–97%)和98%(95%置信区间,95–99%)的诊断建议被认为是适当的。然而,在这两个时间点,只有82%(95%置信区间,76–87%)的治疗建议被认为是适当的(p?0.001)。潜在有害的治疗建议比诊断建议更为常见:急诊科为7% vs 2%(p?=?0.016),PICU为10% vs 0%(p?0.00001)。在PICU中,严重缺失的治疗建议的发生率为每例0.95次,而诊断建议的缺失率为0.15次(p?=?0.0073)。正确的诊断在所有急诊科出院病例中都得到了确认,在PICU入住24小时后的鉴别诊断中为95%(95%置信区间,85–100%)。所有PICU病例的分诊决策都是准确的。
结论:ChatGPT-4.0在诊断和分诊方面表现良好,但在治疗决策和更广泛的儿科应用中仍需谨慎。
已知内容: • 像ChatGPT这样的大型语言模型正被探索作为临床支持工具。 • 它们的诊断潜力已在成人中得到研究,但使用真实患者病例的儿科数据有限。 |
新发现: • 这是首次在真实PICU病例中评估ChatGPT的研究。 • 它在诊断和分诊方面表现良好,但在治疗决策方面仍需谨慎。 |
像ChatGPT这样的大型语言模型(LLMs)正被探索作为临床决策支持工具,但它们在儿科急性护理中的可靠性仍不确定。这项初步研究使用真实世界的临床数据评估了ChatGPT-4.0在重症儿童早期管理中的表现。我们回顾性分析了20名从急诊科(ED)紧急转入三级儿科重症监护病房(PICU)的儿童。在四个时间点对ChatGPT-4.0进行了提示:急诊科到达时(诊断和治疗计划)、急诊科转科时(鉴别诊断和住院决定)、PICU入住时(诊断和治疗计划)以及PICU入住24小时后(鉴别诊断)。将输出结果与实际护理进行比较,并评估其准确性、安全性和遗漏情况。在急诊科和PICU入住时,94%(95%置信区间,91–97%)和98%(95%置信区间,95–99%)的诊断建议被认为是适当的。然而,在这两个时间点,只有82%(95%置信区间,76–87%)的治疗建议被认为是适当的(p?0.001)。潜在有害的治疗建议比诊断建议更为常见:急诊科为7% vs 2%(p?=?0.016),PICU为10% vs 0%(p?0.00001)。在PICU中,严重缺失的治疗建议的发生率为每例0.95次,而诊断建议的缺失率为0.15次(p?=?0.0073)。正确的诊断在所有急诊科出院病例中都得到了确认,在PICU入住24小时后的鉴别诊断中为95%(95%置信区间,85–100%)。所有PICU病例的分诊决策都是准确的。
结论:ChatGPT-4.0在诊断和分诊方面表现良好,但在治疗决策和更广泛的儿科应用中仍需谨慎。
已知内容: • 像ChatGPT这样的大型语言模型正被探索作为临床支持工具。 • 它们的诊断潜力已在成人中得到研究,但使用真实患者病例的儿科数据有限。 |
新发现: • 这是首次在真实PICU病例中评估ChatGPT的研究。 • 它在诊断和分诊方面表现良好,但在治疗决策方面仍需谨慎。 |
生物通微信公众号
知名企业招聘