大型语言模型作为危重儿童初始治疗中的临床决策支持工具：一项初步评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《European Journal of Pediatrics》：Large language model as a clinical decision support tool in the initial management of critically ill children: a pilot evaluation

【字体：大中小】 时间：2025年11月16日 来源：European Journal of Pediatrics 2.6

编辑推荐：

　　ChatGPT-4.0在儿童重症监护早期管理中表现诊断准确率94%-98%但治疗建议准确率仅82%且存在7%-10%潜在危害，需谨慎应用

摘要

像ChatGPT这样的大型语言模型（LLMs）正被探索作为临床决策支持工具，但它们在儿科急性护理中的可靠性仍不确定。这项初步研究使用真实世界的临床数据评估了ChatGPT-4.0在重症儿童早期管理中的表现。我们回顾性分析了20名从急诊科（ED）紧急转入三级儿科重症监护病房（PICU）的儿童。在四个时间点对ChatGPT-4.0进行了提示：急诊科到达时（诊断和治疗计划）、急诊科转科时（鉴别诊断和住院决定）、PICU入住时（诊断和治疗计划）以及PICU入住24小时后（鉴别诊断）。将输出结果与实际护理进行比较，并评估其准确性、安全性和遗漏情况。在急诊科和PICU入住时，94%（95%置信区间，91–97%）和98%（95%置信区间，95–99%）的诊断建议被认为是适当的。然而，在这两个时间点，只有82%（95%置信区间，76–87%）的治疗建议被认为是适当的（p?p?=?0.016），PICU为10% vs 0%（p?p?=?0.0073）。正确的诊断在所有急诊科出院病例中都得到了确认，在PICU入住24小时后的鉴别诊断中为95%（95%置信区间，85–100%）。所有PICU病例的分诊决策都是准确的。

结论：ChatGPT-4.0在诊断和分诊方面表现良好，但在治疗决策和更广泛的儿科应用中仍需谨慎。

已知内容：

• 像ChatGPT这样的大型语言模型正被探索作为临床支持工具。

• 它们的诊断潜力已在成人中得到研究，但使用真实患者病例的儿科数据有限。

新发现：

• 这是首次在真实PICU病例中评估ChatGPT的研究。

• 它在诊断和分诊方面表现良好，但在治疗决策方面仍需谨慎。

像ChatGPT这样的大型语言模型（LLMs）正被探索作为临床决策支持工具，但它们在儿科急性护理中的可靠性仍不确定。这项初步研究使用真实世界的临床数据评估了ChatGPT-4.0在重症儿童早期管理中的表现。我们回顾性分析了20名从急诊科（ED）紧急转入三级儿科重症监护病房（PICU）的儿童。在四个时间点对ChatGPT-4.0进行了提示：急诊科到达时（诊断和治疗计划）、急诊科转科时（鉴别诊断和住院决定）、PICU入住时（诊断和治疗计划）以及PICU入住24小时后（鉴别诊断）。将输出结果与实际护理进行比较，并评估其准确性、安全性和遗漏情况。在急诊科和PICU入住时，94%（95%置信区间，91–97%）和98%（95%置信区间，95–99%）的诊断建议被认为是适当的。然而，在这两个时间点，只有82%（95%置信区间，76–87%）的治疗建议被认为是适当的（p?p?=?0.016），PICU为10% vs 0%（p?p?=?0.0073）。正确的诊断在所有急诊科出院病例中都得到了确认，在PICU入住24小时后的鉴别诊断中为95%（95%置信区间，85–100%）。所有PICU病例的分诊决策都是准确的。

结论：ChatGPT-4.0在诊断和分诊方面表现良好，但在治疗决策和更广泛的儿科应用中仍需谨慎。

已知内容：

• 像ChatGPT这样的大型语言模型正被探索作为临床支持工具。

• 它们的诊断潜力已在成人中得到研究，但使用真实患者病例的儿科数据有限。

新发现：

• 这是首次在真实PICU病例中评估ChatGPT的研究。

• 它在诊断和分诊方面表现良好，但在治疗决策方面仍需谨慎。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号