大型语言模型在耳鼻咽喉头颈外科临床决策支持中的诊断准确性系统评价

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月08日 来源：European Archives of Oto-Rhino-Laryngology 1.9

编辑推荐：

　　为解决耳鼻咽喉头颈外科临床决策中大型语言模型(LLMs)的诊断准确性问题，研究人员系统评估了ChatGPT-4、Claude-3/3.5和Gemini等模型在734例患者中的表现。结果显示：LLMs诊断准确率达45.7-80.2%（Claude优于ChatGPT），但辅助检查(10-29%)和治疗建议(16.7-60%)准确性较低，头颈肿瘤领域表现最佳。该研究为AI临床辅助标准化提供重要依据。

这项系统评价严格遵循PRISMA指南，由三位研究者从285篇文献中筛选出17项符合标准的研究，聚焦大型语言模型(LLMs)在耳鼻咽喉头颈外科临床决策中的应用效能。

研究数据源自PubMed/MEDLINE、Cochrane Library和Embase三大权威数据库，采用改良版非随机研究方法学指数(MINORS)评估文献质量。结果显示：在涵盖734例患者的跨亚专科分析中，ChatGPT-4成为最常被评估的模型(14/17研究)，其次为Claude-3/3.5(2/17)和Gemini(2/17)。

关键发现令人振奋又发人深省：LLMs展现45.7-80.2%的初级诊断准确率，其中Claude系列表现尤为亮眼。然而在建议辅助检查(10-29%)和制定治疗方案(16.7-60%)方面，模型性能显著下降。头颈肿瘤领域治疗建议准确率最高(55-60%)，而鼻科领域则跌至16.7%。

值得注意的是，研究间存在显著异质性——从病例纳入标准到应用程序接口(API)输入信息，再到准确性评估方法均缺乏统一标准。这些发现提示：虽然LLMs展现出中等诊断潜力(尤其在初步诊断环节)，但要实现可靠的临床决策支持，仍需建立方法学标准化体系。特别在治疗建议等关键环节，当前技术尚不能替代专业临床判断。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号