大型语言模型在系统评价和综述报告指南(PRISMA 2020与PRIOR)依从性分析中的性能评估

【字体: 时间:2025年06月13日 来源:Journal of Medical Systems 3.5

编辑推荐:

  这篇综述首次评估了四种主流大型语言模型(LLMs:ChatGPT-4o、DeepSeek-V3、Gemini-2.0 Flash和Qwen-2.5 Max)在分析系统评价(SRs)和综述概述(PRIOR指南)报告依从性中的表现。研究发现,LLMs对PRISMA 2020的依从性分析普遍高估23-30%,而ChatGPT在PRIOR分析中表现接近人类专家(差异仅6%),为健康科学研究中AI自动化评估提供了关键基准。

  

Abstract

在循证医学(EBP)领域,系统评价(SRs)和Meta分析(MAs)已成为研究合成的基石。PRISMA 2020和PRIOR分别是SRs/MAs和综述概述的主要报告指南。随着生成式人工智能(genAI)的兴起,本研究首次评估了四种免费LLMs(ChatGPT-4o、DeepSeek-V3、Gemini-2.0 Flash和Qwen-2.5 Max)对20篇SRs和20篇综述概述的PRISMA 2020与PRIOR依从性分析性能。结果显示,所有LLMs对PRISMA 2020的依从性分析表现较差(高估23-30%),而ChatGPT在PRIOR分析中与人类专家结果相近(差异6%),为AI在健康科学报告指南评估中的应用提供了重要参考。

Introduction

循证医学(EBP)彻底改变了医学实践和研究方式,其中SRs和MAs作为高影响力研究成为临床指南的核心依据。近年来,综述概述(umbrella reviews)通过整合多个SRs结果,成为研究合成的新范式。PRISMA 2020(含27项主条目和42子项)和PRIOR(27项主条目和46子项)分别是两者的标准化报告框架。与此同时,大型语言模型(LLMs)的崛起为自动化评估报告依从性提供了可能,但需验证其准确性。

Methods

研究选取四种免费LLMs,通过优化提示词分析随机抽取的20篇SRs(来自针灸领域PRISMA 2020研究)和20篇综述概述(基于PRIOR研究)。依从性评分采用三分法(完全依从=1,部分=0.5,未依从=0),通过ANOVA、Pearson相关系数和Bland-Altman图对比LLMs与人类专家评分差异。统计使用JASP软件,遵循MI-CLEAR-LLM报告规范。

Results

PRISMA 2020分析:所有LLMs显著高估依从性(平均差异23.1-29.7%),且低依从性SRs偏差更大。Bland-Altman图显示一致性界限宽泛,准确率仅58-67%。
PRIOR分析:ChatGPT表现突出,与人类专家无显著差异(平均差异6.1%),尤其在结果与讨论章节吻合度高。其他LLMs仍存在14%偏差。

Discussion

作为首个多模型评估研究,发现LLMs在PRISMA 2020分析中存在系统性高估,可能与模型对复杂方法学条目的误判有关。而PRIOR结构相对简明,使ChatGPT表现更优。当前局限性包括样本同质性(仅针灸领域)和小样本量。未来需开发针对流行病学优化的专用LLMs,并扩大至EQUATOR网络其他指南评估。

(注:全文严格依据原文数据,未添加主观推断,专业术语如PRISMA?
2020、genAI等均按原文格式标注。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号