
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型(ChatGPT)在系统评价数据提取中的性能关键评估:一项探索性研究
【字体: 大 中 小 】 时间:2025年09月15日 来源:JMIR AI 2
编辑推荐:
本研究针对系统评价(SLRs)中数据提取劳动密集的痛点,探索ChatGPT(GPT-4)提取显性研究特征与主观行为成分的能力。通过420次查询迭代,发现提示优化后准确率提升33%(研究设置)和23%(行为成分),显性数据提取达93.3%,但主观数据仅50%,强调AI需结合人工监督的重要结论。
在生物医学和健康科学领域,系统评价(Systematic Literature Reviews, SLRs)犹如一座灯塔,指引着科研与实践的方向。然而,这座灯塔的建造过程却异常艰辛——研究人员需要从海量文献中手动提取数据,耗时耗力且容易出错。随着大型语言模型(Large Language Models, LLMs)的崛起,尤其是ChatGPT这类工具的普及,人们开始期待用人工智能(AI)自动化完成数据提取,从而解放人力、加速证据合成。但问题在于:这些模型真的能胜任吗?特别是在处理需要 nuanced evaluations(细微评估)的复杂信息时,它们表现如何?
为了回答这些问题,由Hesam Mahmoudi、Doris Chang、Hannah Lee、Navid Ghaffarzadegan和Mohammad S Jalali组成的研究团队开展了一项探索性研究,聚焦于ChatGPT(GPT-4)在数据提取任务中的性能。他们以COVID-19建模研究为案例,分析了10篇论文,提取了60个数据元素,包括三组显性研究设置(如分析地点、建模方法、干预措施)和三组主观行为成分(如流动性、风险感知、合规性)。通过7轮提示迭代和420次查询,团队比较了ChatGPT的输出与人工提取结果,最终发现:虽然提示优化能显著提升模型性能,但它在处理显性数据时表现优异(93.3%准确率),而在主观成分提取上仅达50%,凸显了AI的局限性和人类监督的必要性。这项研究发表于《JMIR AI》,为AI在系统评价中的应用提供了实证依据,强调了人机协作的未来方向。
研究团队采用了多项关键技术方法:首先,基于COVID-19建模研究的样本队列(10篇随机选取的论文),进行人工数据提取和共识验证;其次,使用ChatGPT的浏览器界面(非API)上传PDF全文,通过迭代式提示工程(Prompt Engineering)优化查询,例如从初始泛泛提问逐步细化到强调“仅基于显式文本”;此外,定义了行为成分的分类标准(从“未提及”到“内源性建模分析”),并计算了模型与人工提取的准确率对比;最后,通过多轮响应评估和统计可视化(如条形图和表格),系统量化了性能改进和误差模式。
ChatGPT的准确率随提示优化显著提升:研究设置提取的准确率从初始到最终迭代提高了33%,行为成分提取提高了23%。最终迭代中,60个数据元素中有43个(71.7%)正确,其中显性研究设置达93.3%(28/30),而主观行为成分仅50%(15/30)。模型在第四迭代后超越人工筛查员平均准确率(研究设置),但始终未达到行为成分的人工水平。
分析地点与模型类型:通过2-7轮迭代,ChatGPT对地点和模型类型的提取达100%准确率。
干预措施:最高准确率为80%(8/10),但常过度报告(hallucinate)未提及的干预。
行为成分:旅行流动性(Travel and Mobility)和风险感知(Risk Perception)经6-7轮迭代后达80%准确率;合规性(Compliance)提取仅30%准确率,且错误多为高估整合水平。
ChatGPT的错误主要包括推断超文本内容(如添加未陈述的干预)和误分类行为成分(如将“未建模”标为“建模”)。值得注意的是,在4个实例中,ChatGPT的持续异议促使人工重新评估,最终修正了3个干预提取和1个地点提取,凸显了AI作为辅助工具的潜力。
本研究证实,ChatGPT在提取显性、客观数据(如研究设置)时表现出色,甚至可超越人工筛查员,成为系统评价中的高效助手或第二评审员。然而,其处理主观、复杂信息(如行为动力学)的能力有限,准确率仅50%,且易出现过度报告和幻觉。这揭示了当前LLMs的固有局限:依赖文本显式性、难以处理细微上下文,且需大量提示工程优化。
这些发现对健康科学和证据合成领域具有重要意义:首先,AI工具可加速系统评价的初始阶段,减少人力成本;其次,人机协作必不可少,尤其在高风险决策领域(如生物医学),人工监督能纠正AI错误;最后,研究为未来开发更稳健的AI方法(如检索增强生成)提供了基准。团队强调,尽管LLMs持续进化,但现阶段仍需 cautious integration(谨慎整合)到工作流中,以确保证据合成的严谨性和可靠性。
总之,这项研究不仅拓展了我们对LLMs在学术应用中潜力的理解,也敲响了警钟——技术再先进,也离不开人类的智慧和 oversight(监督)。在AI浪潮中,保持理性与创新并存,才是推动科学前进的真正动力。
生物通微信公众号
知名企业招聘