搜索引擎与大语言模型在健康问题解答中的表现评估:谁更胜一筹?

【字体: 时间:2025年03月12日 来源:npj Digital Medicine 12.4

编辑推荐:

  研究人员对比 4 种搜索引擎、7 种大语言模型(LLMs)及检索增强(RAG)变体,发现 LLMs 准确性更高但受提示影响,RAG 可提升小模型性能。

  在当今数字化时代,人们获取健康信息的方式发生了巨大变化。搜索引擎(Search Engines,SEs)长期以来是人们获取信息的主要工具,而随着自然语言处理(Natural Language Processing,NLP)技术的飞速发展,大语言模型(Large Language Models,LLMs)如 ChatGPT 等横空出世,在信息获取领域掀起了新的浪潮,尤其在问答任务中表现出强大的潜力。但目前,传统搜索引擎在健康信息检索方面存在诸多问题,比如检索结果中大量内容与健康问题不相关,甚至包含错误信息,这让人们难以快速、准确地获取可靠的健康知识。而大语言模型虽然备受关注,但它们在回答健康问题时的可靠性和准确性仍有待验证,并且其性能受输入提示的影响较大,不同的提示可能导致结果差异巨大。此外,关于传统搜索引擎和大语言模型在健康信息检索方面的全面比较研究较为缺乏,两者结合使用的效果也尚不明确。
为了解决这些问题,来自西班牙圣地亚哥德孔波斯特拉大学(Universidade de Santiago de Compostela)的 Marcos Fernández-Pichel、Juan C. Pichel 和 David E. Losada 开展了一项研究,相关成果发表在《npj Digital Medicine》上。这项研究对 4 种流行的搜索引擎、7 种大语言模型以及检索增强(Retrieval-Augmented,RAG)变体在回答 150 个健康相关问题时的表现进行了对比评估,旨在深入了解这些工具在健康信息检索方面的能力和局限性,为人们更好地获取健康信息提供参考依据。

在研究方法上,研究人员选用了文本检索会议(Text Retrieval Conference,TREC)健康错误信息跟踪(Health Misinformation Track,HM)中的 150 个健康相关问题作为评估基准。对于搜索引擎,研究人员将每个健康问题提交给谷歌(Google)、必应(Bing)、雅虎(Yahoo!)和 DuckDuckGo 这 4 个知名搜索引擎,利用网络爬虫工具收集搜索结果中的前 20 个网页,并通过 MonoT5 模型提取相关段落,借助 GPT-3 模型的阅读理解能力判断这些段落是否回答了健康问题。同时,模拟了两种用户行为模型:“懒惰” 用户模型(遇到第一个能回答问题的结果就停止搜索)和 “勤奋” 用户模型(对比三个结果后再做决定)来评估搜索结果的有效性。对于大语言模型,研究人员测试了包括 GPT-3(text-davinci-002)、text-davinci-003、ChatGPT、GPT-4、Flan T5、Llama3 和 MedLlama3 在内的 7 种不同模型。在不同设置下,如零样本(zero-shot)和少样本(few-shot)策略,使用不同类型的提示(无上下文提示、非专家提示和专家提示)提交健康问题,获取模型的回答。此外,还进行了检索增强实验,将谷歌搜索结果中的相关段落注入到部分大语言模型的输入中,观察其性能变化。

研究结果显示,在搜索引擎方面,必应在所有数据集上表现相对较好,但与其他搜索引擎相比,差异并不显著。从整体来看,搜索引擎的检索能力良好,随着搜索结果排名的下降,回答的准确性并没有明显降低。然而,搜索引擎的精度较低(60 - 70%),这主要是因为许多检索结果无法提供答案。如果仅考虑能明确回答问题的结果,精度可提升至 80 - 90%,但仍存在 10 - 15% 的错误答案。在模拟用户行为方面,“懒惰” 用户模型与 “勤奋” 用户模型相比,在做出决策时所需的工作量更少,且效果相当,甚至更好,这表明搜索引擎的首个结果往往具有较高的可靠性。

在大语言模型方面,不同模型在不同数据集上的表现各有优劣。总体而言,大语言模型的表现优于搜索引擎,其准确率可达 80% 左右。例如,在 TREC HM 2020 数据集中,Llama3、MedLlama3 和 text-davinci-003 表现突出;在 2021 数据集中,MedLlama3 表现出色;在 2022 数据集中,ChatGPT 和 GPT-4 表现较好。同时,模型的性能对输入提示非常敏感,例如 Flan T5 和 text-davinci-002 在不同提示下准确率波动较大。通过少样本实验发现,部分模型(如 Flan T5、d-002 和 d-003)在提供上下文示例时表现有所提升,但表现最佳的零样本模型在添加上下文示例后并没有明显受益。对模型错误进行分析后发现,主要错误类型包括对主流医学共识的错误理解、对问题的错误解读以及回答模糊。

在检索增强大语言模型方面,实验表明,对于某些数据集,将搜索引擎的检索结果作为证据注入大语言模型中,可以提升模型的性能。例如,在 2021 和 2022 数据集上,一些模型在接受检索增强后表现有所改善,甚至一些较小的模型(如 text-davinci-002)在得到相关证据后,性能可与更先进的模型(如 GPT-4)相媲美。此外,注入的段落正确性对模型性能至关重要,当注入的段落全部正确时,模型几乎不会出错;而当段落全部错误时,模型准确率会显著下降。

研究结论表明,搜索引擎在健康信息检索方面仍有改进空间,需要进一步优化以减少错误信息和无回答结果的出现。大语言模型虽然具有较高的准确性,但受输入提示影响大,在实际应用中需要更好地引导和优化。检索增强策略为提升大语言模型的性能提供了新的思路,较小的模型在得到合适的检索证据时也能达到较高的性能水平。这项研究为人们在健康信息检索中合理使用搜索引擎和大语言模型提供了重要参考,同时也为相关技术的进一步发展指明了方向,推动了健康信息获取领域的研究进展,有助于人们更高效、准确地获取健康知识,做出更明智的健康决策。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号