
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型(LLM)能否超越传统结构化方法?EAU-ESPU小儿泌尿外科指南年度更新的挑战与局限
【字体: 大 中 小 】 时间:2025年06月06日 来源:Journal of Pediatric Urology 2.0
编辑推荐:
欧洲泌尿外科协会(EAU)与欧洲小儿泌尿外科协会(ESPU)联合研究团队针对大型语言模型(LLM)在更新小儿泌尿外科指南中的实用性展开评估。通过对比ChatGPT 3.5/4.0和CoPilot在鞘膜积液(hydrocele)与精索静脉曲张(varicocele)章节更新中的表现,发现LLMs因无法访问科学数据库、输出结果不一致且存在虚构参考文献等问题,目前无法替代专家小组。该研究为AI在医学指南制定中的局限性提供了实证依据,发表于《Journal of Pediatric Urology》。
在医学领域,临床指南的制定与更新是保障医疗质量的核心环节。欧洲泌尿外科协会(European Association of Urology, EAU)与欧洲小儿泌尿外科协会(European Society for Pediatric Urology, ESPU)联合发布的小儿泌尿外科指南,以其严格的证据分级和系统性更新流程成为全球标杆。然而,随着人工智能(AI)技术的爆发式发展,尤其是ChatGPT等大型语言模型(Large Language Model, LLM)的出现,医学界开始思考:这些能够“理解”并生成自然语言的AI,能否替代人类专家完成指南更新这一高度专业化的工作?
传统指南更新依赖专家小组耗时数月的文献筛选、证据评估和共识会议,而LLMs理论上可快速整合海量文本信息。但问题在于:LLMs是否具备检索最新文献的能力?其输出结果是否足够准确可靠?是否存在伦理风险?为回答这些问题,EAU-ESPU的研究团队设计了一项开创性研究,成果发表于《Journal of Pediatric Urology》。
研究团队选取2023-2024年更新的鞘膜积液(hydrocele)和精索静脉曲张(varicocele)章节作为测试对象,对比三种LLM(ChatGPT 3.5、ChatGPT 4.0和Microsoft CoPilot)的表现。通过设计“自然对话”和“结构化提示”两种交互模式,要求模型完成包括文献检索、证据整合、章节修订等9项任务,并评估其输出的科学性、一致性和可靠性。
主要技术方法
研究采用重复实验设计,每种LLM对两个章节各进行5次独立对话(共60次)。评估标准包括:能否访问EAU指南手册和科学数据库(PubMed/Ovid/Embase/Cochrane)、是否提供科学正确的更新内容、是否存在虚构参考文献等。两名小儿泌尿外科专家(AvU和LtH)独立评分,Cohen’s kappa值为0.94,显示高度一致性。
结果
讨论与意义
该研究首次实证表明,当前LLMs在医学指南更新中存在三大局限:
尽管如此,研究者指出LLMs在辅助语言润色、生成考题或简化版指南方面或有潜力,但需人工严格校验。未来需开发专用插件,使LLMs能遵循EAU手册(如GRADE证据分级)并接入权威数据库。
这项研究为AI在医学标准化中的应用划定了清晰边界:尽管技术日新月异,但人类专家的临床判断和循证医学方法论仍是不可替代的核心。正如作者强调:“当LLMs开始伪造参考文献时,我们不仅看到了技术的局限,更看到了医学伦理的红线。”
生物通微信公众号
知名企业招聘