在生物医学自然语言处理(BIOMEDICAL NLP)领域对检索增强型大型语言模型(retrieval-augmented large language models)进行基准测试:应用、鲁棒性和自我意识

《SCIENCE ADVANCES》:Benchmarking retrieval-augmented large language models in biomedical NLP: Application, robustness, and self-awareness

【字体: 时间:2025年11月23日 来源:SCIENCE ADVANCES 12.5

编辑推荐:

  针对生物医学NLP任务中检索增强语言模型(RALs)的评估不足问题,提出BioRAB框架,涵盖未标记数据、反事实、多样性和负意识四个评估能力,并设计检测-纠正策略和对比学习提升RA性能。实验表明RA们在多数任务上优于基础模型,但存在反事实和负意识方面的挑战,改进方法有效提升鲁棒性。

  在当今人工智能快速发展的背景下,大型语言模型(LLMs)已经成为处理自然语言任务的重要工具。然而,在医学等高度专业化的领域,LLMs在生成准确和可靠的信息方面仍面临诸多挑战,尤其是在事实性错误(即“幻觉”)方面。为了解决这一问题,研究者们提出了“检索增强型语言模型”(RALs)的概念,即在需要时从外部知识库中检索相关信息,从而减少幻觉并提升模型对新知识的适应能力。尽管RALs在多个任务中表现出色,但它们在生物医学自然语言处理(NLP)任务中的表现尚未得到充分探索。因此,本文提出了一种全面的评估框架——“生物医学检索增强型生成基准”(BioRAB),旨在评估RALs在五个关键生物医学NLP任务中的表现,并结合11个数据集进行测试。此外,为了进一步提升RALs的鲁棒性和自我意识能力,本文还提出了“检测并纠正”策略和“对比学习”方法。

在生物医学领域,模型的准确性至关重要。由于医学知识的复杂性和不断更新,仅依赖模型内部的训练数据可能无法提供足够的信息来支持高质量的输出。因此,检索机制成为提高模型性能的重要手段。然而,当前的检索方法在某些情况下表现不佳,尤其是在面对未标记数据、反事实数据和多样化数据时。例如,在问答(QA)任务中,即使使用了检索机制,模型在部分数据集上的表现并未显著优于基础模型。这一现象可能与所使用的检索数据集有关,因为如果训练数据集不足以提供足够的信息,模型的输出质量可能会受到影响。此外,在反事实数据中,模型容易受到错误标签的影响,导致性能下降。这些发现揭示了当前RALs在生物医学应用中的关键局限性,也指出了改进方向。

为了全面评估RALs的性能,本文构建了四个测试平台,分别对应“未标记数据鲁棒性”、“反事实数据鲁棒性”、“多样化数据鲁棒性”和“负面意识”。其中,“未标记数据鲁棒性”测试模型是否能够从未标记的数据集中提取有价值的信息;“反事实数据鲁棒性”评估模型在面对错误标注的数据时的适应能力;“多样化数据鲁棒性”检验模型是否能够从多个任务的数据集中整合信息以提升性能;而“负面意识”则关注模型是否能够识别检索到的知识是否对最终输出产生负面影响。通过这四个测试平台,本文能够系统地分析RALs在不同场景下的表现,并为模型的改进提供理论依据和实验支持。

在实验结果方面,大多数RALs在生物医学任务中表现优于基础模型。例如,在三元组抽取任务中,使用Contriever作为检索器的MedLLaMA-13B模型在ADE数据集上的F1分数提高了22.37%。这表明,RALs在某些任务中确实能够通过检索外部知识提升性能。然而,在反事实数据场景中,模型的性能却出现了显著下降,例如在ADE数据集上,当反事实数据比例达到80%时,三元组F1分数下降至约10%。这一结果凸显了反事实数据对模型性能的负面影响,也说明了模型在面对错误标注信息时的脆弱性。此外,模型在多样化数据中的表现也存在不确定性,某些数据集如BioNLI的性能得到了改善,而其他如ADE的数据集则表现出较差的鲁棒性。这些发现表明,不同任务和数据集对RALs的影响存在差异,需要进一步研究和优化。

在负面意识方面,模型的表现同样不尽如人意。在PharmKG和BioNLI等数据集中,模型的负面意识率接近于零,而在ADE数据集中也仅为1.07%。这说明,当前的RALs在识别和区分负面信息方面存在较大困难,尤其是在面对完全反事实数据时。尽管如此,通过引入“检测并纠正”策略和“对比学习”方法,模型在某些任务中取得了显著提升。例如,在文本分类任务中,使用这些方法后,模型在ADE数据集上的负面意识率从48.70%提升至49.56%,表明模型的分类能力得到了增强。这为后续的模型优化提供了新的思路。

在进一步的研究中,本文探讨了如何通过改进模型的鲁棒性和负面意识来提升其性能。首先,针对反事实数据的挑战,本文提出了一个两步流程,即“检测”和“纠正”。这一方法能够系统地识别和修正数据标注中的错误,从而提高模型在后续任务中的表现。其次,为了增强未标记数据的鲁棒性,本文利用了上下文学习(ICL)技术,通过提供任务相关的指令,让模型在缺乏标签的情况下进行预测。这些方法的引入,为RALs在生物医学领域的应用提供了新的可能性。

此外,本文还对模型在不同正负样本比例下的表现进行了分析。在Ade-corpus-v2数据集上,无论正负样本比例是1:1还是1:5,模型的性能变化不大,说明其在处理平衡数据时表现稳定。然而,在SemClass数据集上,当样本比例变为1:5时,模型的性能出现了显著下降,F1分数从66.50%降至48.50%,同时AUROC也从67.40%降至51.75%。这一结果表明,模型在面对不平衡数据时的鲁棒性较差,特别是在区分正负样本方面。因此,未来的模型优化应重点关注如何提升模型在不平衡数据环境下的表现。

本文的研究结果表明,尽管RALs在生物医学任务中表现优异,但它们在未标记数据、反事实数据和多样化数据中的表现仍然存在局限。这些局限性可能源于模型对检索信息的依赖程度较高,而这些信息的质量和相关性直接影响模型的输出。因此,提升RALs的鲁棒性和负面意识成为当前研究的重要方向。通过构建更加全面的评估框架,如BioRAB,以及引入更有效的检索策略,如“检测并纠正”和“对比学习”,可以为模型的优化提供新的思路和方法。

在实际应用中,生物医学领域的模型不仅需要准确的输出,还需要具备自我修正和识别错误的能力。因此,模型的鲁棒性不仅仅体现在对正确数据的处理上,还应包括对错误信息的识别和纠正。通过构建包含反事实数据的测试集,模型可以更好地评估其在复杂场景下的表现。同时,引入对比学习方法,能够帮助模型更有效地区分正负样本,从而提升其在多样化数据中的表现。

总之,本文的研究揭示了当前RALs在生物医学领域面临的挑战和机遇。通过构建全面的评估框架和引入新的优化方法,可以进一步提升模型的鲁棒性和负面意识,使其在高风险的医学任务中更加可靠和准确。未来的研究应继续探索这些方向,以推动RALs在生物医学领域的广泛应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号