
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能聊天机器人与YPUC儿科泌尿科医生在Campbell Walsh泌尿学尿道下裂问卷上的表现对比
《World Journal of Urology》:Artificial intelligence chatbots vs. YPUC pediatric urologists: performance on a Campbell Walsh urology hypospadiology questionnaire
【字体: 大 中 小 】 时间:2025年11月26日 来源:World Journal of Urology 2.9
编辑推荐:
本研究比较了AI平台与儿科尿路科医生在结构化知识评估中的表现,发现AI在基础知识、初始管理和并发症处理上得分较高,但在临床及辅助检查评估中表现不足,专家亚组得分优于非专家。AI可作为辅助工具但无法替代人类专家判断。
人工智能(AI)在医学领域的应用日益广泛,但在一些高度专业化的领域(如尿道下裂诊疗)中,其表现仍存在不确定性。本研究旨在通过结构化的知识评估,比较AI平台与儿科泌尿科医生的表现。
欧洲儿科泌尿学会(ESPU)的青年儿科泌尿科医生委员会(YPUC)的23名成员以及五种AI模型(ChatGPT 3.5、ChatGPT 4.0、Gemini、Copilot和Doubao)完成了包含31道选择题的问卷(Campbell Walsh Urology第12版)。评估结果从整体情况、不同子群体(欧洲儿科泌尿学会认证专家(FEAPU,n=15)、年龄超过35岁的医生(n=16)以及自称为尿道下裂诊疗专家的医生(n=12))三个方面进行分析,并涵盖了四个主题类别:基础知识、临床与辅助临床评估、初步处理以及并发症处理。
AI和人类受访者的整体表现相当(分别为67.7%和61.2%,p=0.467)。然而,在某些子群体中,AI的表现优于人类:获得FEAPU认证的医生优于未获得认证的医生(61.3% vs 53.2%,p=0.001);年龄超过35岁的医生优于35岁及以下的医生(61.3% vs 54.8%,p=0.039);自称为尿道下裂诊疗专家的医生优于非专家(61.3% vs 54.8%,p=0.039)。AI在基础知识(83% vs 67%,p=0.320)、初步处理(71% vs 57%,p=0.450)和并发症处理(64% vs 55%,p=0.087)方面的表现更佳,但在临床与辅助临床评估方面表现较差(57% vs 71%,p=0.003)。该研究的主题具有高度专业性,因此其结果难以推广到更广泛的医疗场景中。
AI平台在结构化问卷测试中的得分与儿科泌尿科医生相当,但在需要细致临床判断的领域仍存在不足。虽然AI在教育支持方面具有潜力,但它无法替代人类专家在尿道下裂诊疗中的判断力。
生物通微信公众号
知名企业招聘