
-
生物通官微
陪你抓住生命科技
跳动的脉搏
毒理学数据提取中的大语言模型:来自临床证据领域的启示与经验教训
【字体: 大 中 小 】 时间:2025年09月15日 来源:Evidence-Based Toxicology
编辑推荐:
本综述深入探讨了大语言模型(LLM)在系统评价数据提取中的应用,通过与预训练语言模型(PLM)的对比,揭示了LLM在评估标准、可重复性及实际应用中的挑战与潜力,并为毒理学和临床证据合成领域的自动化提取提供了重要的方法学指导(含F1评分、PICO框架、NER等关键指标)。
随着生成式大语言模型(LLM)越来越多地被整合进系统评价工作流程,其在评估标准、可重复性和公平基准测试方面的不足也逐渐显现。本文基于一项关于自动化数据提取的实时系统评价(LSR),指出当前研究呈现报告质量下滑的趋势。尽管新模型、大模型不断涌现,但其安全性问题依然存在,甚至有研究表明,在某些特定领域——尤其是存在高质量金标准数据集的情况下,较小的模型表现反而优于LLM。本评述重点分析了17项采用LLM自动化从随机对照试验(RCT)中提取数据的研究,总结了这些LLM研究的评估策略与报告现状,着重指出了其中存在的不一致性和可能误导系统评价研究人员的潜在陷阱。文章进一步探讨了LLM在证据图谱构建中的潜在应用,并基于2023年英国纽卡斯尔“证据合成黑客松”所制定的清单和指南,提出了LLM自动化方法报告的良好实践建议。
本评述聚焦于一项更广泛的、涵盖117篇关于数据提取方法出版物的实时系统评价(LSR)中所确定的17项LLM研究。该LSR以2020年为文献检索起点,定期检索PubMed、ACL Anthology、arXiv、通过EPPI-Reviewer检索的OpenAlex以及dblp计算机科学书目数据库等来源。最新检索覆盖至2024年8月的出版物以及2024年9月的OpenAlex内容,旨在捕获能够支持系统评价(如PICO数据)所必需元素的自动化数据提取的原创方法。
LLM和较小的预训练语言模型(PLM)都有潜力在自动从临床和环境毒理学文献中提取信息方面发挥重要作用。这两种模型在规模、能力、资源需求和应用程序上存在显著差异。
LLM(如GPT)是基于Transformer架构的神经网络,训练于大型语料库,能够捕捉对人类语言建模所需的高度复杂的统计关系和细微差别。它们目前非常庞大,训练需要大量的计算能力,其训练通常侧重于根据上下文预测缺失文本。
PLM(如BERT)共享Transformer基础,但更小,通常针对特定任务进行微调。它们的输出不是生成性的,而是对现有文本进行分类或将其表示为向量格式以供下游处理(称为嵌入)。这些模型参数更少,可以完整下载、调整并在GPU或强大的CPU计算机上部署以进行预测。
命名实体识别(NER)是从临床和毒理学文献中自动化提取证据的基础步骤,通常侧重于PICO(或毒理学中的PECO)类实例。自动化NER是从文本中提取信息(通常是名词或名词短语)的过程。
数据提取还涉及除NER之外的其他任务,例如实体间关系的提取、关系限定词的提取、参考文献的提取、概念到标准化术语的归一化以及代词消解。错误传播是NER之外的数据提取方法在实际应用中的一个障碍。LLM等新方法提供了克服此问题的机会,因为它们可以减少对多个特定任务模型的需求。
对自动化提取方法性能的关键评估和记录对于确保其在实际中的可靠和可用至关重要。F1分数是一个定量验证指标,是阳性预测值(精确度)和灵敏度(召回率)之间的调和平均数。它通常用于阳性类别更重要但占比不足的分类场景,是验证自动化数据提取最常用的指标之一。
像BioGPT这样的领域特定LLM在生物医学提取任务上展示了有希望的结果,其性能超过了早期的BioBERT等模型。这些结果突显了LLM支持证据合成的潜力,尽管在成本、透明度和关键评估方面仍然存在挑战。
LLM与PLM比较的问题在于两种架构所满足的根本目标不同。这是对旨在对现有文本进行分类的判别性任务特定PLM与产生新文本输出的生成性通用LLM的评估。
由于PLM具有词元级分类能力,它们在结构化数据提取方面持续优于LLM。在生物医学领域更直接的数据提取和分类任务的公共基准数据集(如BLURB)上的头对头比较中,PLM以显著优势胜过LLM。造成这种性能差距的一个原因是,传统上这些任务的目标是基于非结构化文本输入创建结构化数据,并且评估基于逐字比对,其中正确答案始终是现有文本的子集。
PLM在实体解析(即解析参考文献中同一实体的多次提及,如缩写、间接引用和同义词)方面的应用研究较少。PLM通常需要多个模型来完成实体解析等任务,这会增加复杂性并导致错误在模型间传播。另一方面,LLM可以通过省略详尽的概念提取的显式NER步骤并直接生成已解析的实体,以更集成的方式执行此类任务。
当前的LLM研究通常使用整体准确性指标来评估性能,特别是在零样本提示场景中。此类评估高度依赖于提示质量、数据集划分、主题和领域特定变化。性能也可能因领域和研究设计而有很大差异。
保持独立的评估数据集对于避免高估LLM性能和污染结果至关重要。最小化过拟合风险的唯一方法是在手动标记的、随机选择并留出的评估数据上评估LLM预测。
此外,直接比较PLM和LLM本身就有问题。PLM是判别性的,通常需要多组件架构来处理复杂任务,而LLM生成自由形式的输出。使用相同的指标评估两者可能会引入偏差。
PLM和LLM的评估突出了一个关键权衡:PLM需要前期投资创建数据集,而LLM减轻了初始负担,但将人的工作负载转移到了评估阶段。理解这种人力投入在何处以及如何需要,对于开发可扩展和可重用的数据提取方法至关重要。
对于基于提示的LLM数据提取,情况更为复杂。LLM可能通过不需要前期金标准数据来节省初始工作量,但由于其生成性质,它们需要多次手动检查和验证迭代,并且在上游模型更新时需要重复检查和验证。
此外,对LLM训练数据的访问和监督通常有限,这使得数据污染成为一个潜在问题。
公开可用、可重复使用的数据集使PLM评估具有可持续性。这些数据集中明确定义的类和标签使得可以反复重新训练和重新评估判别性模型的预测,而无需进一步的人工干预。这代表了一种可持续的场景——前提是研究人员以可访问和文档完备的方式发布数据集和代码。
毒理学中的金标准数据集虽然在其预期范围内很有价值,但通常适用范围有限,超出了它们所开发的特定研究问题、语料库或注释策略。
LLM被认为是一种变革性和颠覆性技术,因为它们可以在不对额外金标准数据集进行训练的情况下实现高性能——这与以前的方法(例如NLP,ML)有根本区别。用户可以通过提示模型来执行任务而无需额外示例(或提供非常有限的示例集),这个概念称为零样本或k样本提示。
然而,LLM在为特定数据提取目标开发提示时需要人工监督,并且通常只能使用小型开发数据集,因为人类需要在开发过程中不断重新评估和调整提示。更重要的是,LLM通常需要对其在独立评估数据集上的生成输出进行人工评估。这个过程可能需要重复多次。
当强制LLM输出拟合预标记的数据集(如EBM-NLP)时,其性能可能会下降,并且看起来比实际要低。这意味着虽然LLM训练不需要人工输入,但人的工作负载集中在评估阶段。
围绕资源密集型人工LLM评估和缺乏可自动应用的有意义验证指标存在这些问题。现有的自动化验证分数,如BLEU和ROUGE,在用于自动评分LLM预测时,被发现是实际LLM性能的不良代表。
PLM经常描述的处理复杂、缺失、隐含或模糊信息能力差的问题,会导致误分类。LLM同样被证明会产生不正确的输出,例外之处在于描述错误的语言更类人化,使用“幻觉”或“混淆”等术语。幻觉是指生成模型生成听起来合理但事实不正确的文本,旨在满足用户而非保证事实准确性。
防止幻觉的可能策略是明确提示LLM仅考虑提供的上下文,如果找不到信息则提取“不清楚”或“不可用”等术语。然而,这并不总是可靠的,模型仍然可能产生随机幻觉。
成本和环境影响尤其适用于计划使用LLM处理非常大数据集(例如整个PubMed)的研究人员和工具开发人员。研究人员应考虑将LLM应用于大型数据集的环境影响和可持续性,并可能首先应用更小、高召回率的PLM来过滤可能不相关的记录。
当使用集成了LLM的自动化工具时,用户应始终检查工具提供商是否为其方法共享清晰、数字化和绝对的验证指标。初创工具开发商声称相对改进的声明应谨慎对待。
本评述侧重于LLM使用的技术和数据科学方面。对人工智能在证据合成中实际影响有更深兴趣的读者可以参考RAISE指南草案。
大型证据与缺口图谱是环境健康和毒理学领域中对研究趋势和知识缺口进行分类和可视化的重要工具。
在LLM之前,大规模证据图谱依赖于手动和机器辅助的方法,例如优先级筛选和早期停止。由于其范围更大,证据与缺口图谱的搜索可能会产生大量结果,导致筛选和分类参考文献的工作量很大。
正如预期的那样,使用LLM进行证据图谱可能无法达到完美的分类准确性;然而,它有潜力加速处理大量文献。
EPPI中心最近一项未发表的可行性研究展示了GPT-4在证据图谱中完全自动化筛选和分类的潜力。在环境健康应用中,基于网络的数据提取工具Dextr集成了LLM来处理全文PDF以进行系统评价和证据图谱。初步的未发表数据表明LLM的表现至少与经过严格验证和发布的NLP模型一样好,甚至可能更好。
精心设计的LLM提示在调整提取过程以专注于特定概念方面起着至关重要的作用,实现了有针对性的信息检索。LLM提示的灵活性允许动态细化提取标准,确保识别和适当分类细微或特定背景的实体。
LLM支持方法的透明报告至关重要。交互式地图可以部署在线,而方法可以通过注册方案、预印本、自行出版或学术期刊进行报告。
该模板是为具有证据合成背景、希望按照数据科学最佳实践标准开发LLM方法的研究人员开发的。在LSR中的LLM论文中,我们观察到在随机数据集划分、模型选择、提示开发和描述适当的验证指标方面报告不完整的趋势。该模板可用于方法的规划和报告,以提高报告标准并促进已发布自动化方法的分析和重用。
智能体AI指的是使用人工智能工具自主解决复杂多步骤问题的新兴趋势,同时与代码、网站、软件工具交互,或在一段时间内执行任务。
一个例子是Anthropic最近的实验“Project Vend”,其中LLM Claude Sonnet 3.7被赋予管理Anthropic办公室内真实自动售货机业务的任务。该实验表明,可以将AI智能体应用于涉及现实世界场景中研究、分析和规划的任务,使用在线资源和人工输入来塑造行动。
理论上,如果提示正确并给予适当的工具,用于证据合成的AI智能体可能能够执行多文档提取和合成。然而,智能体AI目前仅是一个新兴趋势,评估其自动化证据合成的准确性和安全性的研究尚不可用。
虽然LLM有望提高系统评价工作流程的效率,但本评述强调了进行严格、公平和可重复评估的重要需求。缺乏与人类性能的头对头比较,并且为特定架构设计的验证方法可能会使结果偏向一种模型类型而非另一种。对于需要人工核查的特定应用(例如支持监管行动的系统评价),定义所需的准确性和精确度也可能是有用的。需要就透明的、符合最佳实践的方法达成共识,以在未来实现自动化的潜力。
存在多个对自动化感兴趣的利益相关者群体,每个群体在证据合成中使用LLM方面面临不同的挑战。为了支持跨领域(如毒理学和循证医学)负责任的LLM研究,我们主张采用结构化的评估和报告实践。
生物通微信公众号
知名企业招聘