大语言模型助力系统评价提效:基于提示工程与检索增强生成的创新突破

【字体: 时间:2025年05月11日 来源:BMC Medical Research Methodology 3.9

编辑推荐:

  系统评价(SRs)对制定循证指南意义重大,但文献筛选耗时耗力。研究人员开展了大语言模型(LLMs)在 SRs 中应用的研究,发现 LLMs 系统比传统方法和 Rayyan 更高效,且假阴性率(FNR)低,为优化 SRs 流程提供新方向。

  在当今生命科学和医学研究领域,系统评价(Systematic Reviews,SRs)是构建循证医学的关键基石,其能为临床决策、指南制定提供可靠依据 。然而,随着全球科研成果的爆发式增长,科学文献数量每 9 年便会翻倍,开展 SRs 面临着巨大挑战。传统的 SRs 流程需要研究人员对大量文献进行筛选,平均耗时长达 67.3 周。其中,文献筛选环节最为繁琐,需依次进行标题 / 摘要筛选和全文筛选,且通常要由两名评审人员独立重复操作,这一过程耗费了大量的人力和时间成本。为了满足科研人员对快速、频繁更新 SRs 的需求,同时应对诸如疫情等突发公共卫生事件以及临床实践指南制定的迫切要求,开发高效的文献筛选方法迫在眉睫。
在此背景下,美国贝鲁特美国大学(American University of Beirut)的研究人员展开了一项具有创新性的研究。他们旨在探索大语言模型(Large Language Models,LLMs)在系统评价中的应用潜力,尤其是评估其能否有效加速文献筛选过程,同时保证筛选的准确性。研究结果令人振奋,该研究表明基于 LLMs 的系统在提高 SRs 效率方面表现卓越,相较于传统手动筛选方法和商业工具 Rayyan,不仅大幅缩短了筛选时间,而且维持了较低的假阴性率(False Negative Rate,FNR),这一成果为系统评价领域带来了新的曙光,有望重塑未来的文献筛选模式。相关研究成果发表在《BMC Medical Research Methodology》杂志上。

研究人员为开展此项研究,主要运用了以下关键技术方法:

  • 数据准备:采用已完成的关于维生素 D 与跌倒的综合评价数据,在数据处理过程中,将 17,346 篇文章导入 Rayyan 软件进行去重等操作。
  • 对比工具选择与训练:选择 Rayyan AI 作为对比工具,由一名评审人员依据筛选指南手动筛选 2,000 篇随机文章对其进行训练 。
  • LLMs 系统构建:基于 LLMs 的系统利用提示工程(Prompt Engineering)和检索增强生成(Retrieval-Augmented Generation,RAG)技术 。在标题 / 摘要筛选阶段,通过向 GPT-4 模型输入特定提示进行筛选;在全文筛选阶段,借助 RAG 技术,先将全文 PDF 处理后存储在向量数据库,再用 GPT-4 模型依据一系列问题进行评估筛选。
  • 性能评估指标设定:使用文章排除率(Article Exclusion Rate,AER)、假阴性率(FNR)、特异性、阳性预测值(Positive Predictive Value,PPV)和阴性预测值(Negative Predictive Value,NPV)等指标评估筛选性能,并估算不同方法的筛选时间。

下面来详细了解一下该研究的主要结果:

  • Rayyan 标题 / 摘要筛选结果:在使用 Rayyan 进行标题 / 摘要筛选时,设置不同的纳入阈值会产生不同效果。当以 “Undecided” 及以上评级的文章需要进一步手动筛选(Threshold A)时,文章排除率可达 72.1%,假阴性率为 5%,总估计筛选时间为 54.7 小时;若将排除阈值降低至仅 “Most Likely To Exclude” (Threshold B),虽然假阴性率降为 0%,但文章排除率也降至 50.7%,筛选时间增加到 81.3 小时。
  • LLMs 标题 / 摘要和全文筛选结果:经过 GPT-4 模型的标题 / 摘要筛选,14,439 篇文章中有 3,298 篇(22.8%)进入全文筛选阶段,此步骤文章排除率为 77.2%,假阴性率为 0% ,耗时 2 小时。在后续基于 RAG 的全文筛选中,3,298 篇文章仅 78 篇(2.37%)需手动审查,包含传统方法保留的 20 篇,该步骤文章排除率 97.63%,特异性 99.6%,阳性预测值 25.6%,阴性预测值 100% ,耗时 4 小时。整个 LLMs 筛选过程文章排除率 99.5%,总耗时 25.5 小时,相比传统方法节省了 538.9 小时(95.5%)。

从研究结论和讨论部分来看,该研究成果意义非凡。一方面,Rayyan AI 和基于 LLMs 的系统都显著降低了 SRs 的工作量,且维持较低的 FNR,但 LLMs 系统优势更为突出。它不仅实现了标题 / 摘要筛选自动化,还通过提示工程和 RAG 技术完成了更具挑战性的全文筛选任务,将手动全文审查的文章数量从 14,439 篇锐减至 78 篇。另一方面,LLMs 系统极大地减少了筛选时间,同时保证没有遗漏相关文章,降低了人为错误和偏差的风险。不过,LLMs 也存在一定局限性,例如对提示设计的依赖,面对复杂的纳入 / 排除标准时可能需要人工仔细审查 。尽管如此,该研究为系统评价流程的优化提供了极具价值的参考,未来可进一步拓展 LLMs 系统的功能,使其能够支持更复杂的审查步骤,如数据提取和合成等,从而推动系统评价领域朝着更高效、更精准的方向发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号