在社交媒体和临床文本中,对大型语言模型进行基准测试以提取药物不良反应信息

《Results in Engineering》:Benchmarking Large Language Models for Adverse Drug Reaction Extraction in Social Media and Clinical Texts

【字体: 时间:2025年09月24日 来源:Results in Engineering 7.9

编辑推荐:

  本文系统评估了多种大语言模型(包括GPT-4o-mini、GPT-3.5-turbo、BioMistral-7B等)在ADR提取任务中的性能,通过细调和零样本、单样本、五样本上下文学习方法,对比分析在CADEC和SMM4H数据集上的结果。研究发现GPT-4o-mini在细调下表现最佳(CADEC relaxed F1 79.06%),但模型在非正式文本中仍面临语义误解、假阳性等问题,且领域专用模型(如BioMistral-7B)在社交媒体数据上效果欠佳。研究提出需结合领域知识和数据增强优化模型。

  ### 对药物不良反应(ADR)提取任务中大型语言模型(LLMs)的评估

药物不良反应(Adverse Drug Reactions, ADRs)是药物安全监测中的关键问题,它不仅影响患者的健康,也对药物的监管和使用提出了挑战。随着医学研究的深入和社交媒体的广泛应用,获取和分析ADR信息成为药物安全评估的重要环节。然而,传统的ADR提取方法在面对模糊性、报告不足和噪声信息时表现不佳,特别是在处理非结构化的医学文献和社交媒体文本时。近年来,大型语言模型(Large Language Models, LLMs)因其强大的语言理解和生成能力,成为ADR提取任务的新选择。然而,其在区分真实ADR与虚假关联方面的可靠性仍存疑。因此,本研究旨在系统评估当前最先进的开放源和闭源LLMs在ADR提取任务中的表现,以期为未来的药物安全监测提供科学依据和实用建议。

#### 1. 背景与动机

ADR是指患者在推荐剂量下使用药物时产生的有害或非预期反应,它与药物不良事件(ADEs)密切相关。ADEs包括药物使用过程中出现的伤害性事件,如药物错误、过量使用、不当使用或药物之间的相互作用。传统的ADR检测方法,如基于规则的系统、机器学习模型和深度学习方法,虽然在某些情况下表现良好,但它们在处理非结构化文本时面临诸多挑战。例如,医学文献和社交媒体中的语言风格、表达方式和语境差异使得模型难以准确识别ADR。

社交媒体文本通常包含大量非正式语言,如缩写、表情符号、标签和情感表达,这些因素增加了ADR识别的难度。此外,传统的医学数据库往往未能全面反映患者的实际体验,特别是在处理轻微或基于症状的ADR时。因此,开发能够处理多种文本来源的先进模型,如基于深度学习的模型,成为提升药物安全监测能力的重要方向。然而,这些模型仍然依赖于大量标注的医学数据,这在实际应用中限制了其可扩展性。

#### 2. 研究方法

本研究采用了两种互补的方法:微调(fine-tuning)和上下文学习(in-context learning)。微调涉及在特定任务上对预训练模型进行训练,使其更好地适应ADR提取任务。而上下文学习则是在不进行参数更新的情况下,通过提供少量示例和任务描述,让模型自行学习任务特征。这两种方法各有优劣,微调能够提高模型在特定任务上的性能,但需要大量的标注数据;而上下文学习则适用于资源有限的情况,但可能无法达到微调模型的性能。

本研究使用的数据集包括CADEC和SMM4H。CADEC包含1250条论坛帖子,其中1107条至少包含一个ADR提及。SMM4H则由2276条推文组成,其中1832条被识别为ADR相关。数据集的多样性为评估不同模型的性能提供了丰富的样本。此外,本研究还引入了严格的和宽松的评估指标,以更好地衡量模型在不同情况下的表现。严格的评估要求预测与真实ADR的精确匹配,而宽松的评估则允许一定程度的重叠,以适应ADR描述的多样性和模糊性。

#### 3. 模型选择与评估

本研究选择了六种大型语言模型进行评估,包括GPT-3.5-turbo、GPT-4o-mini、Microsoft Phi-3-mini、LLaMA-3.2-1B、DeepSeek和BioMistral-7B。这些模型涵盖了通用型和医学领域专用型,旨在探讨不同模型架构在处理非正式语言时的适应能力。其中,GPT-4o-mini在微调方法中表现最佳,其在CADEC数据集上的宽松F1分数达到79.06%,在SMM4H数据集上则为66.80%。这表明,尽管GPT-4o-mini在某些方面表现出色,但在处理社交媒体文本时仍面临挑战。

在上下文学习(in-context learning)方面,GPT-4o-mini在五次示例设置下取得了65.57%的CADEC宽松F1分数和49.34%的SMM4H宽松F1分数。相比之下,其他模型的表现较为逊色。例如,LLaMA-3.2-1B在CADEC上的宽松F1分数为65.85%,在SMM4H上仅为7.84%。这些结果突显了模型在处理非正式语言时的局限性,特别是在缺乏足够训练数据的情况下。

#### 4. 评估指标与方法

为了全面评估模型在ADR提取任务中的表现,本研究采用了严格的和宽松的精度(Precision)、召回率(Recall)和F1分数。严格的评估要求预测与真实ADR的精确匹配,而宽松的评估则允许一定程度的重叠。此外,为了进一步评估模型在部分匹配情况下的表现,本研究引入了余弦相似度(cosine similarity)作为补充指标。当预测实体与真实实体之间的余弦相似度达到0.8或更高时,视为部分匹配。这种方法能够更全面地反映模型在不同情境下的识别能力,尤其是在面对模糊或非标准表达时。

通过严格的评估,GPT-4o-mini在CADEC数据集上的表现依然优于其他模型,其宽松F1分数达到79.06%,而严格F1分数为66.80%。然而,宽松的评估方法显示,模型在识别部分匹配ADR时具有更高的灵活性。这表明,模型在处理社交媒体文本时,需要在精度和召回率之间进行权衡,以确保既不遗漏重要信息,又不产生过多的误报。

#### 5. 结果分析

从结果来看,GPT-4o-mini在微调方法中表现最佳,特别是在处理CADEC数据集时。然而,在SMM4H数据集上,其表现仍然有限,宽松F1分数仅为66.80%。这可能与SMM4H数据集的噪声和非正式语言有关。相比之下,其他模型如LLaMA-3.2-1B、DeepSeek和Microsoft Phi-3-mini在SMM4H数据集上的表现更为逊色,宽松F1分数分别为7.84%、4.41%和6.63%。这些结果表明,模型在处理社交媒体文本时,其性能受到多种因素的影响,包括训练数据的多样性、模型的规模以及其对非正式语言的适应能力。

在上下文学习(in-context learning)方面,GPT-4o-mini的表现同样优于其他模型。然而,其性能仍不及微调模型。这表明,虽然上下文学习能够在不进行参数更新的情况下提高模型的适应能力,但其在处理复杂任务时仍存在一定的局限性。此外,研究还发现,即使在五次示例设置下,模型的表现依然有限,这说明在处理非正式语言时,仅靠示例可能不足以提供足够的指导。

#### 6. 讨论与局限性

尽管大型语言模型在ADR提取任务中展现出潜力,但其在实际应用中仍面临诸多挑战。首先,模型在处理非正式语言时,容易产生语义偏差。例如,某些模型在识别包含否定或修饰词的文本时,可能无法正确理解其含义,从而导致误判。其次,模型在处理模糊或非标准的ADR表达时,往往无法准确识别所有相关实体,导致部分ADR被遗漏。此外,模型还可能生成与输入无关的ADR,这种现象被称为“幻觉”(hallucination),这会降低整体的准确性。

这些局限性在实际应用中尤为突出。例如,在CADEC数据集中,专家标注的ADR包括“Jaw pains, neck pains, low back pains, hip pains, numbness, tingling, pains”,而GPT-4o-mini的预测结果包括“Jaw pains, neck pains, low back pains, hip pains, numbness in legs, numbness in arms, tingling in legs, tingling in arms, pains”。尽管模型能够识别大部分相关实体,但其对某些细节的过度细化可能会导致结果与专家标注存在偏差。此外,模型在处理包含多个症状或修饰词的复杂句子时,可能无法准确识别所有相关信息,从而影响其在药物安全监测中的可靠性。

#### 7. 未来工作与建议

为了进一步提升大型语言模型在ADR提取任务中的表现,本研究提出了一些未来的研究方向。首先,可以探索基于人类反馈的强化学习(Reinforcement Learning with Human Feedback, RLHF),以提高模型的临床相关性和决策可信度。其次,可以通过数据增强策略,如同义词替换、引入拼写错误和模拟社交媒体文本风格,来增强模型对非正式语言的适应能力。最后,可以开发混合训练框架,结合结构化的医学数据和社交媒体文本,以解决模型在不同领域之间的适应问题。

此外,研究还指出,对于临床部署场景,如药物安全监测系统,模型如GPT-4o-mini虽然表现出色,但在实际应用中仍需进行进一步的领域特定微调和真实数据验证。只有经过充分的训练和验证,这些模型才能在临床和监管流程中发挥更大的作用。同时,模型的使用应受到严格的专家审核,以确保其在实际应用中的准确性和可靠性。

#### 8. 总结

本研究通过系统评估多种大型语言模型在ADR提取任务中的表现,揭示了当前模型在处理非正式语言和社交媒体文本时的局限性。尽管GPT-4o-mini在某些方面表现出色,但其在SMM4H数据集上的表现仍不理想。因此,未来的研究应关注如何通过改进模型架构、训练策略和数据处理方法,提高其在真实世界中的适应能力。此外,模型的使用应在临床和监管环境中经过严格验证,以确保其在药物安全监测中的可靠性。通过这些努力,可以进一步推动大型语言模型在药物安全领域的应用,为患者和医生提供更准确和可靠的ADR信息。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号