
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ChatGPT在儿童骨科急症分诊中的准确性评估:一项探索AI辅助医疗决策的前瞻性研究
【字体: 大 中 小 】 时间:2025年06月05日 来源:Journal of Orthopaedic Surgery and Research 2.8
编辑推荐:
为解决家长对儿童骨科症状是否需急诊处理的困惑,研究人员评估了ChatGPT在5种常见儿科骨科场景中的分诊准确性。通过模拟家庭咨询场景,采用改良Likert量表由两位儿科骨科专家独立评分,结果显示ChatGPT对反应性关节炎、化脓性关节炎等场景的应答准确率达8-10分(满分12分),但在SCFE(股骨头骨骺滑脱)等复杂情况存在建议偏差。研究表明AI可作为儿童骨科分诊的辅助工具,但需结合临床监督。
在数字化医疗时代,家长们面对孩子突发骨关节症状时常常陷入两难:是该立刻冲进急诊室,还是预约门诊更合适?这种决策焦虑在儿科骨科尤为突出——从玩耍摔伤后的肘关节肿胀,到不明原因的膝关节红肿热痛,每个症状背后可能隐藏着从轻微扭伤到危及关节的化脓性感染等截然不同的病因。更棘手的是,超过三分之二的家长会先上网查证再就医,但网络信息的准确性和针对性却难以保障。
正是针对这一临床痛点,来自土耳其的研究团队开展了一项开创性研究,测试当下最火爆的人工智能工具ChatGPT能否胜任"儿科骨科分诊员"的角色。研究人员精心设计了5个典型场景,包括反应性关节炎、化脓性关节炎、牵拉肘(nursemaid's elbow)、肘关节骨折/脱位以及股骨头骨骺滑脱(SCFE),通过模拟家长口吻进行两轮提问(基础症状描述+细节补充),由GPT-4o-mini生成应答。两位资深儿科骨科专家采用包含准确性(12分制)、完整性(6分制)和简洁性(6分制)的改良Likert量表进行盲法评估,结果发表于《Journal of Orthopaedic Surgery and Research》。
研究采用的关键方法包括:1)基于临床流行病学数据筛选5种高频儿科骨科场景;2)构建家长视角的双轮提问模板;3)通过OrthoKids、POSNA等专业平台验证应答准确性;4)采用Cohen's kappa系数评估评审者间一致性(0.71,95%CI 0.39-1.00)。
【结果精要】
背景与提问设计:所有场景均源自真实急诊/门诊数据,如Question 1模拟上呼吸道感染后膝关节疼痛(反应性关节炎典型病史),Question 5刻画肥胖青少年渐进性大腿疼痛(SCFE风险因素)。
准确性表现:
• 完美应答(10-12分):对反应性关节炎场景(Question 1),ChatGPT准确建议门诊就诊,并详细解释病毒后关节炎症特点。
• 需微调的建议(8-9.5分):在化脓性关节炎场景(Question 2),系统正确识别"红肿热痛+活动受限"为急诊指征,但额外建议的急诊物品清单超出医学必要范畴。
• 诊断偏差:对SCFE(Question 5),虽正确识别肥胖+渐进性疼痛的危险组合,却错误推荐抬高患肢(该措施对骨骺滑脱无效)。
动态应答优势:
在牵拉肘场景(Question 3),初始应答认为"无畸形可暂缓急诊",但当补充"关节活动丧失"细节后立即修正为紧急处理建议,展现情境学习能力。
【结论启示】
这项研究首次系统验证了ChatGPT在儿科骨科分诊中的双面性:其优势在于能快速整合典型病史(如Question 4中 playground跌落史+肘关节制动)、给出符合临床指南的建议,且应答语言比传统搜索引擎更亲民;但局限也很明显——当面对SCFE等需要解剖学理解的复杂病症时,可能给出违背治疗原则的建议(如错误抬高患肢)。
更深层的启示在于:1)AI可作为医疗资源紧张地区的分诊"第一响应者",尤其对反应性关节炎等低危情况;2)必须建立"人类专家-AI"协同机制,例如在系统输出中嵌入POSNA等权威机构的决策树;3)未来需开发骨科专用LLM(Large Language Model),整合影像学参数等多维数据。正如研究者Sema Ertan Birsel强调的,当前ChatGPT最适合的角色是"会说话的医学教科书",而非独立决策者。这项研究为AI在专科医疗中的应用划出了清晰边界:在儿童骨科这个决策风险与信息需求同样高的领域,技术的温度与精度同样重要。
生物通微信公众号
知名企业招聘