大型语言模型对比人类评估者：基于AGREE II工具的临床指南质量评价研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月29日 来源：JAMA Network Open 10.5

编辑推荐：

　　为解决临床指南质量评估耗时耗力的问题，来自未知机构的研究人员开展了一项创新研究，利用GPT-4o大型语言模型(LLM)对28份治疗药物监测指南进行AGREE II工具评估。结果显示LLM与人类评估者一致性显著(ICC=0.753)，单份指南评估仅需171秒，为临床决策提供了高效自动化解决方案。

这项质量改进研究探索了人工智能在医疗指南评估领域的突破性应用。科研团队采用指南可靠性报告规范(GRRAS)，让GPT-4o对1995-2018年间28份治疗药物监测(TDM)指南进行了四轮独立评估。通过组内相关系数(ICC)和Bland-Altman图分析发现，这个聪明的人工智能系统与人类专家达成了0.753的一致性水平，81.5%的领域评分落在可接受范围内。有趣的是，AI在"表述清晰性"维度表现最优(平均差异仅-0.2%)，却在"利益相关方参与"维度略显慷慨(平均高估22.3%)。

更令人惊叹的是其效率——平均171秒完成单份指南评估，相比人类专家团队节省了90%以上时间。不过研究也揭示了AI的"小缺点"：面对排版线索(如加粗文本)和补充材料时会"犯迷糊"。研究者推测，某些情况下AI可能展现了"自主查阅参考文献"的潜力。

这项研究为循证医学注入了新活力，未来可通过优化提示词设计、扩展指南类型等方式，让AI成为临床工作者的"智能质检员"，帮助快速筛选优质指南，提升医疗决策效率。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号