人工智能在急诊分诊中的安全性与准确性评估：一项基于ChatGPT的前瞻性观察研究

《International Journal of Emergency Medicine》：Safety and accuracy of AI in triaging patients in the emergency department

【字体：大中小】 时间：2025年11月22日 来源：International Journal of Emergency Medicine 2

编辑推荐：

　　本刊推荐：为解决急诊分诊中人力资源紧张与分诊准确性不足的问题，研究人员开展了一项关于AI聊天机器人ChatGPT在急诊分诊中应用效果的前瞻性观察研究。结果显示ChatGPT与急诊医生分诊决策具有高度一致性(k=0.780)，但与资深顾问相比存在过度分诊倾向。研究表明通用AI模型在急诊分诊中具有一定应用潜力，但需针对性优化以提高临床适用性。

在繁忙的急诊科，每一分钟都关乎生死。医护人员面临的最大挑战之一就是分诊——如何在最短时间内准确判断患者病情的紧急程度，让最危重的病人优先得到救治。这就像一场与时间赛跑的医学"排序游戏"，规则简单但责任重大。

目前全球广泛使用的加拿大分诊 acuity 量表(CTAS)等工具，虽然为分诊提供了标准化框架，但在实际应用中仍面临两大难题：过度分诊和分诊不足。过度分诊好比"小题大做"，将轻症患者误判为危重，不仅浪费宝贵的医疗资源，还可能延误真正需要紧急救治的患者；而分诊不足则是"大题小做"，低估病情的严重性，可能导致不可挽回的后果。特别是在像沙特阿拉伯利雅得第一健康集群这样的繁忙急诊中心，每天需要处理大量病例，分诊准确性直接关系到整个医疗系统的运行效率。

近年来，人工智能(AI)在医疗领域的应用为解决这一难题带来了新希望。机器学习技术能够快速分析海量医疗数据，识别模式并预测结果，这为缓解急诊科拥挤、弥补人员短缺提供了潜在解决方案。然而，现有研究结果却大相径庭——有的显示AI在分诊中表现优异，有的则指出其表现欠佳。这种不确定性促使Alomari等研究人员决定一探究竟，评估当前最热门的AI聊天机器人ChatGPT在真实急诊环境中的分诊能力。

为了客观评估ChatGPT的急诊分诊能力，研究团队在沙特阿拉伯利雅得的King Saud Medical City(KSMC)急诊科开展了一项精心设计的前瞻性观察研究。研究共纳入138名患者，排除了需要立即复苏的危重病例。每位患者首先由急诊医生按照CTAS标准进行常规分诊评分，随后由研究助理将患者的匿名化临床信息(包括年龄、性别、合并症、主诉、生命体征等)输入ChatGPT(GPT-4.0模型)，并明确指令"基于CTAS，该患者属于哪个类别?"获取AI的分诊建议。当医生与AI的分诊结果出现分歧时，由不知情的资深急诊顾问进行最终评估，作为金标准。

研究采用Cohen's Kappa系数评估不同分诊者之间的一致性程度，并比较各分诊决策与金标准的准确性。统计分析使用SPSS软件完成，样本量经过严格计算，确保结果具有统计学意义。

研究结果显示，ChatGPT与急诊医生的分诊决策呈现出惊人的一致性，总体符合率高达85.61%，两者间存在高度一致性(k=0.780，95%置信区间[CI] 0.676-0.884，p<0.001)。在CTAS 2、3、4类患者中，符合率分别达到83.9%、86.8%和85.7%，而CTAS 5类病例虽数量较少但完全一致。这种高度一致性表明，AI能够较好地复制临床医生的分诊决策模式。

然而，当以资深顾问的评估作为金标准时，情况出现了有趣的变化。急诊医生与顾问之间的一致性降至63.9%，可靠性仅为中等水平(k=0.406，95% CI 0.006-0.806，p=0.018)。分析发现，医生倾向于给予更高的紧急程度评分——50%被医生评为CTAS 2级的患者被顾问降级为CTAS 3级，25%的CTAS 3级病例被降为CTAS 4级。这种"宁严勿松"的做法反映了临床实践中常见的风险规避倾向。

更值得关注的是ChatGPT与金标准的比较结果。AI与顾问的总体符合率仅为42.86%，一致性程度轻微(k=0.168，95% CI -0.26-0.599，p=0.004)。ChatGPT表现出明显的过度分诊倾向，特别是对高危病例——所有被AI判定为CTAS 1级的患者，顾问均重新评估为CTAS 2级。相比之下，AI在中等紧急程度病例(CTAS 3级)中表现较好，正确识别了77.8%的病例。

这种"安全第一"的分诊倾向实际上反映了AI系统的内在特点。与人类医生类似，未经专门医学训练的通用AI模型更倾向于"过度警惕"，这可能源于训练数据中危重病例特征的突出表现。虽然这种倾向有助于避免分诊不足的风险，但可能增加急诊科的工作负担，影响资源优化配置。

研究还详细记录了参与患者的临床特征。大多数患者通过私家车到达(87.1%)，能够独立行走(79.9%)，主要年龄分布在36-45岁(20.9%)，男性占多数(61.2%)。近半数患者无显著合并症(46.8%)，非创伤性病例占77.0%，常见主诉包括胸痛(7.2%)、呼吸困难(6.5%)和腹痛(5.0%)等。生命体征方面，多数患者心率(73.4%)、呼吸频率(77.7%)、血氧饱和度(90.6%)和体温(92.8%)处于正常范围，意识状态评估(AVPU)显示93.6%患者清醒。这些数据为理解AI分诊决策的临床背景提供了重要参考。

该研究的优势在于其前瞻性设计、标准化数据收集流程以及金标准评估的盲法实施，有效减少了潜在偏倚。然而，研究者也坦诚指出了若干局限性：样本量相对较小可能影响结果的普适性；使用通用AI模型而非专门针对医学分诊训练的模型可能限制性能表现；观察性研究设计难以完全控制混杂因素，如医生经验差异、病例复杂程度以及部分临床数据(如心电图/静脉血气)缺失可能对AI决策产生影响。

这项研究为我们理解AI在急诊分诊中的应用价值提供了重要启示。ChatGPT与急诊医生决策的高度一致性表明，AI系统确实能够学习和模仿人类的临床判断模式，这在医疗人力资源紧张的环境中具有重要应用前景。然而，AI与资深专家评估之间的差距也提醒我们，当前最好的临床实践与常规临床决策之间可能存在差异，AI模型需要以专家共识为训练目标，而非简单复制可能存在偏差的临床常规。

更重要的是，AI表现出的过度分诊倾向实际上是一把双刃剑。从患者安全角度，这种"保守"策略可能降低分诊不足的风险，符合急诊医学"安全第一"的原则。但从资源优化角度，过度分诊可能导致急诊科负担加重，影响真正危重患者的救治效率。因此，未来的AI分诊系统需要在安全性与效率之间找到最佳平衡点。

该研究的结果与近期多项国际研究相互印证。如Masanneck等人的研究发现，ChatGPT与经过专业培训的急诊人员之间存在高度一致性(k=0.67)，但与专家级顾问的一致性较低，这种模式反映了AI模型倾向于复制而非纠正人类临床决策中的固有偏差。类似地，多项研究指出，未经专门医学训练的通用大型语言模型在急诊分诊中普遍表现出过度警惕的特点。

展望未来，专门针对急诊分诊需求开发的定制化AI模型可能比通用模型表现更佳。通过融入更多专家验证的病例数据，结合具体医疗环境的实际需求进行优化，AI分诊系统有望成为急诊科得力的辅助工具，而非替代人类临床医生的自主决策系统。

Alomari等人的这项研究为急诊医学中AI应用的发展提供了有价值的数据支持和方向指引。在医疗人工智能快速发展的今天，保持科学审慎的态度，通过严谨的临床研究验证各项技术的安全性与有效性，是确保技术创新真正造福患者的关键。随着更多高质量研究的开展和技术的不断进步，AI有望在急诊医学领域发挥越来越重要的作用，为提升医疗质量、优化资源配置做出实质性贡献。

热点排行