大型语言模型（LLM）能否超越传统结构化方法？EAU-ESPU小儿泌尿外科指南年度更新的挑战与局限

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月06日 来源：Journal of Pediatric Urology 2.0

编辑推荐：

　　欧洲泌尿外科协会（EAU）与欧洲小儿泌尿外科协会（ESPU）联合研究团队针对大型语言模型（LLM）在更新小儿泌尿外科指南中的实用性展开评估。通过对比ChatGPT 3.5/4.0和CoPilot在鞘膜积液（hydrocele）与精索静脉曲张（varicocele）章节更新中的表现，发现LLMs因无法访问科学数据库、输出结果不一致且存在虚构参考文献等问题，目前无法替代专家小组。该研究为AI在医学指南制定中的局限性提供了实证依据，发表于《Journal of Pediatric Urology》。

在医学领域，临床指南的制定与更新是保障医疗质量的核心环节。欧洲泌尿外科协会（European Association of Urology, EAU）与欧洲小儿泌尿外科协会（European Society for Pediatric Urology, ESPU）联合发布的小儿泌尿外科指南，以其严格的证据分级和系统性更新流程成为全球标杆。然而，随着人工智能（AI）技术的爆发式发展，尤其是ChatGPT等大型语言模型（Large Language Model, LLM）的出现，医学界开始思考：这些能够“理解”并生成自然语言的AI，能否替代人类专家完成指南更新这一高度专业化的工作？

传统指南更新依赖专家小组耗时数月的文献筛选、证据评估和共识会议，而LLMs理论上可快速整合海量文本信息。但问题在于：LLMs是否具备检索最新文献的能力？其输出结果是否足够准确可靠？是否存在伦理风险？为回答这些问题，EAU-ESPU的研究团队设计了一项开创性研究，成果发表于《Journal of Pediatric Urology》。

研究团队选取2023-2024年更新的鞘膜积液（hydrocele）和精索静脉曲张（varicocele）章节作为测试对象，对比三种LLM（ChatGPT 3.5、ChatGPT 4.0和Microsoft CoPilot）的表现。通过设计“自然对话”和“结构化提示”两种交互模式，要求模型完成包括文献检索、证据整合、章节修订等9项任务，并评估其输出的科学性、一致性和可靠性。

主要技术方法
研究采用重复实验设计，每种LLM对两个章节各进行5次独立对话（共60次）。评估标准包括：能否访问EAU指南手册和科学数据库（PubMed/Ovid/Embase/Cochrane）、是否提供科学正确的更新内容、是否存在虚构参考文献等。两名小儿泌尿外科专家（AvU和LtH）独立评分，Cohen’s kappa值为0.94，显示高度一致性。

结果

数据库访问能力：所有LLMs均无法系统检索指定数据库（2017-2022年文献）。CoPilot虽能返回真实参考文献，但多为超范围或陈旧文献。
输出不一致性：同一模型对相同问题的回答差异显著。例如，ChatGPT 3.5在自然对话中仅20%声称能访问PubMed，而结构化提示下提升至100%，但实际未执行检索。
科学准确性：仅ChatGPT 3.5在5/20对话中生成无信息丢失的章节摘要，但未纳入新证据。ChatGPT 4.0更多提供“假设性更新”，而CoPilot的更新建议与临床标准冲突（如错误推荐超声常规使用）。
虚构内容风险：ChatGPT 3.5在1次对话中伪造了看似真实的参考文献（如虚构《Journal of Pediatric Urology》2020年文章），作者和期刊信息均属杜撰。

讨论与意义
该研究首次实证表明，当前LLMs在医学指南更新中存在三大局限：

技术瓶颈：缺乏实时访问专业数据库的能力，导致无法整合最新证据；
可靠性缺陷：输出结果的高变异性不符合指南制定的严谨要求；
伦理隐患：虚构参考文献可能误导临床决策。

尽管如此，研究者指出LLMs在辅助语言润色、生成考题或简化版指南方面或有潜力，但需人工严格校验。未来需开发专用插件，使LLMs能遵循EAU手册（如GRADE证据分级）并接入权威数据库。

这项研究为AI在医学标准化中的应用划定了清晰边界：尽管技术日新月异，但人类专家的临床判断和循证医学方法论仍是不可替代的核心。正如作者强调：“当LLMs开始伪造参考文献时，我们不仅看到了技术的局限，更看到了医学伦理的红线。”

热点排行

新闻专题

联系信箱：

粤ICP备09063491号