监督式机器学习与大型语言模型在题目-摘要筛选中的比较研究

《Systematic Reviews》：Comparing supervised machine learning and large language models in title-abstract screening

【字体：大中小】 时间：2026年06月10日 来源：Systematic Reviews 3.9

编辑推荐：

　　摘要：系统评价（Systematic Review, SR）要求评价者对人量数据库检索得到的文献进行纳入资格判定。为在文献量持续增长的情况下加速评价流程，既往研究提出采用监督式机器学习（Supervised Machine Learning, SML）或大型语

摘要：系统评价（Systematic Review, SR）要求评价者对人量数据库检索得到的文献进行纳入资格判定。为在文献量持续增长的情况下加速评价流程，既往研究提出采用监督式机器学习（Supervised Machine Learning, SML）或大型语言模型（Large Language Model, LLM）实现题目/摘要筛选步骤的自动化。由于此前的研究主要在同类模型家族内部进行比较，研究人员直接在相同数据上比较了常见的基于词频-逆文档频率（Term Frequency–Inverse Document Frequency, TF-IDF）的监督式基线模型与零样本、依据纳入排除标准提示（criteria-prompted）、开放权重的大型语言模型Llama-3.1—8B-Instruct，以探讨二者在系统评价筛选自动化中是否可行及适用场景。研究人员采用四种监督式机器学习模型（朴素贝叶斯〔Na?ve Bayes〕、支持向量机〔Support Vector Machine, SVM〕、随机森林〔Random Forest, RF〕、逻辑回归〔Logistic Regression, LR〕）和一种大型语言模型（Llama-3.1—8B-Instruct）对六篇系统评价中经人工评审员标注纳入/排除资格的文献进行资格预测。研究人员通过二分类混淆矩阵评估模型性能，对各数据集进行1000次自举重抽样（bootstrap），计算召回率（Recall）、特异度（Specificity）、精确率（Precision）、F1分数和准确率（Accuracy），并将结果与报道的单个人类评审员性能（召回率0.86，特异度0.79）进行比较。结果显示，模型性能在各数据集间差异较大。除朴素贝叶斯外，监督式机器学习模型的召回率与特异度较Llama更为接近。全数据集平均后，Llama达到人类水平的召回率，朴素贝叶斯超过人类水平召回率，但二者均低于人类水平特异度；反之，逻辑回归、随机森林和支持向量机的召回率低于人类水平，而三者的特异度均高于人类水平。研究表明，监督式机器学习和大型语言模型均可达到接近或超过人类评审员的召回率。监督式机器学习模型的召回率与特异度的调和均值更高，而Llama模型敏感性更高。鉴于监督式机器学习依赖训练数据且属于"全有或全无"式自动化，本研究结果表明其适用于已有非关键性系统评价的扩展更新；相反，由于大型语言模型对每篇文章独立判断且可提供可讨论的推理说明，可与人类评审员协同使用，大型语言模型集成（ensemble）的性能尚待分析。

论文解读：《Comparing supervised machine learning and large language models in title-abstract screening》发表于《Systematic Reviews》

一、研究背景与立项依据

系统评价（Systematic Review, SR）是医学、心理学及生态学等领域综合研究证据的重要方法，但其传统流程耗时较长（平均约61～67.3周），且文献出版量呈指数增长，定期更新系统评价压力巨大。题目-摘要筛选（title/abstract-screening）是系统评价中最耗时环节之一，通常需两名评审员独立筛选，人工评审员可能漏掉约13%的相关文献。为加速此步骤，既往研究探索了用监督式机器学习（Supervised Machine Learning, SML）自动分类文献，近期也有研究评估用大型语言模型（Large Language Model, LLM）进行零样本筛选。然而既往研究多在同一模型家族内比较，缺乏在相同数据上对SML与LLM的直接横向对比，且结果重现性受限。为此，研究人员设计对照性比较研究，在六个真实系统评价数据集上分别应用TF-IDF基线的SML模型和零样本提示的开放权重LLM（Llama-3.1—8B-Instruct），以探究两类方法在题目-摘要筛选自动化中的性能差异及适用场景，为将自动化引入实践提供依据。

二、主要关键技术方法概述

研究人员选取六个来源于已发表系统评价的数据集（五个来自SYNERGY开源库，一个来自胰腺外科活体系统评价），涵盖不同医学主题及纳入率（2.5%～26.0%）。数据预处理包括去重、去非英文文献、补全缺失题摘、去除HTML及特殊字符、词形还原（lemmatization）及去除停用词。SML侧采用TF-IDF向量化（TfidfVectorizer）结合随机欠采样（RandomUnderSampler, sampling_strategy="auto"）处理类别不平衡，再用默认参数的四类分类器——互补朴素贝叶斯（ComplementNB）、逻辑回归（LogisticRegression, class_weight="balanced"）、随机森林（RandomForestClassifier, class_weight="balanced"）、支持向量机（SVC, class_weight="balanced"）——以70%/30%分层划分训练/测试集进行预测。LLM侧采用Meta Llama-3.1—8B-Instruct，以零样本方式输入题目、摘要及从原系统评价提取的结构化纳入/排除标准（criteria-prompted），要求输出判定及理由，使用贪婪解码（do_sample=False）。性能以二分类混淆矩阵为基础，计算召回率（Recall = TP/(TP+FN)）、特异度（Specificity = TN/(TN+FP)，等同于标准化工作节省率 nWSS）、精确率（Precision）、F₁分数及准确率；通过1000次Bootstrap抽样获得95%置信区间，F₁分数置信区间采用Delta方法计算。以单个人类评审员基准（Recall=0.86, Specificity=0.79）作参照。

三、研究结果

Datasets（数据集描述）

六个数据集分别涉及胰腺外科（pancreatic surgery）、动物抑郁模型（animal depression）、注意缺陷多动障碍药物（ADHD）、非典型抗精神病药（atypical antipsychotics）、钙通道阻滞剂（calcium channel blockers）和口服降糖药（oral hypoglycemics）。纳入文献比例中位数为10.8%，数据含噪声（HTML标签、截断摘要、错填字段等），经清洗后各数据集剔除中位数80篇记录（占原始8.1%）。

Classification（分类结果）

在三个数据集（animal depression、pancreatic surgery、ADHD）上部分模型达到或超越人类基准（Recall≥0.86且Specificity≥0.79），其余三个药物评价数据集整体表现较低。全数据集平均：Llama-3.1—8B-Instruct与朴素贝叶斯召回率接近或高于人类（Llama匹配人类Recall≈0.86，朴素贝叶斯略超），但二者特异度低于人类基准（≈0.79）；逻辑回归、随机森林、SVM召回率略低于人类，特异度高于人类。除朴素贝叶斯外，SML模型Recall与Specificity较为均衡接近，Llama则呈现高Recall低Specificity倾向——即LLM对疑似相关文献更倾向判为纳入（"疑纳入从纳入"），类似人类评审员存疑时的宽松做法。SML模型F₁分数的调和均值（harmonic mean of recall and specificity）总体高于LLM。

四、讨论与结论翻译

讨论指出，两类模型召回率均可接近或超人类评审员。SML模型（尤其是LR、RF、SVM）在Recall与Specificity间取得更好平衡，F₁较高，适合已有历史标注数据的活系统评价（living SR）更新，但随评价范围改变需重新训练。LLM无需训练数据，可独立逐篇判断并提供自然语言推理说明（reasoning），增强可审核性与信任度，适合新启动的系统评价或与人类评审员协作双重筛选（一人一LLM）。LLM零样本性能在部分数据集与70B参数版本相当，提示本任务中小参数开放权重模型具实用价值。局限性含未做提示工程优化、潜在预训练数据污染、单训练-测试切分基准等。未来需标准化数据集、探究纳入标准表述对LLM影响及LLM集成性能。

结论（Conclusions部分翻译）：

循证临床实践及临床前研究依赖系统评价以为患者提供基于最新证据的最佳诊疗。传统系统评价流程费力、易错且在持续新文献涌现下不可持续。正在建立的活系统评价相较传统出版形式节省时间。本研究结果将有助于EVIglance等系统加速持续筛选过程。实践中，用于题目-摘要筛选的模型需具备可及性、性能与可信度方可应用。虽然两类模型均可在消费级硬件运行且具相似可及性，研究人员认为Llama-3.1—8B-Instruct更具可信度，因其以自然语言解释纳入理由使人类评审员能验证正确性，该特性使大型语言模型与人类评审员协作完成题目-摘要筛选成为可能。反之，监督式机器学习模型属难解释的"黑箱"，对非医学背景评审员不易实现与解读。上述结论仅限于本文所基准测试的基于TF-IDF的经典监督式基线模型与零样本开放权重大型语言模型，且二者均仅做最少参数调优。

热点排行