编辑推荐:
在生物医学研究中,识别蛋白质 - 蛋白质相互作用(PPIs)至关重要。研究人员评估了专有大语言模型(LLMs)在 PPI 预测中的效果。结果显示,精心设计的提示能引导 LLMs 有效预测 PPI,虽未超专业模型,但为无计算专长的生物医学研究者提供了工具。
在生物医学的微观世界里,蛋白质就像一个个忙碌的 “小工匠”,它们之间的相互作用(Protein - Protein Interactions,PPIs)影响着生命活动的方方面面。从基因表达、信号转导,到细胞凋亡,都离不开这些 “小工匠” 们的紧密协作。一旦它们的互动出现异常,比如因为基因突变或感染等因素,疾病可能就会乘虚而入,癌症便是其中的典型代表。同时,蛋白质相互作用在食品加工、农业生产等领域也发挥着重要作用,像在食品加工中,胰凝乳蛋白酶可以分解小麦面筋蛋白;在农业中,蛋白质相互作用影响着水果的成熟过程。
随着生物医学研究的不断深入,相关文献数量呈爆炸式增长,这就好比在茫茫书海中寻找特定的知识宝藏,变得越来越困难。虽然自然语言处理(Natural Language Processing,NLP)技术取得了很大进展,比如命名实体识别(Named Entity Recognition,NER)、关系提取(Relation Extraction,RE)和问答(Question Answering,QA)等,但如何高效地从这些文献中挖掘蛋白质 - 蛋白质相互作用的信息,仍然是一个亟待解决的问题。早期的 PPI 提取方法,如基于模式的、共现的和机器学习的策略,都存在各自的局限性。而基于 Transformer 的模型,如 BERT 及其衍生的 BioBERT、SciBERT 等,虽然提高了任务特异性模型的性能,但它们的应用往往受到计算机科学基础知识的限制。
在这样的背景下,大语言模型(Large Language Models,LLMs)的出现为解决这一难题带来了新的希望。像 OpenAI 的 ChatGPT、GPT - 3.5、GPT - 4,以及 Google 的 Gemini 等,这些模型经过大量数据的预训练,能够在各种领域生成相关的回答,无需针对特定任务进行微调。那么,它们在生物医学文献中蛋白质 - 蛋白质相互作用识别这一关键任务上,表现究竟如何呢?
为了回答这个问题,来自台北医学大学(Taipei Medical University)的研究人员展开了深入研究。他们通过系统的提示工程,评估了 GPT - 3.5、GPT - 4 和 Google Gemini 等专有 LLMs 在 PPI 预测中的有效性。研究结果意义重大,表明精心设计的提示能够有效地引导 LLMs 进行 PPI 预测,尽管这些通用 LLMs 在性能上尚未超越专门的模型,但它们为没有深厚计算专业知识的生物医学研究人员提供了有价值的工具,有望改变生物医学关系提取的研究方式。该研究成果发表在《Scientific Reports》上。
研究人员为开展此项研究,主要运用了以下关键技术方法:
- 数据集选择:采用六个 PPI 基准数据集,包括 LLL、IEPA、HPRD50、AIMed、BioInfer 和 PEDD。这些数据集来源不同,各有特点,涵盖了不同数量和质量的文本信息,为全面评估模型性能提供了丰富的数据基础。
- 提示工程设计:设计了六种复杂程度逐渐增加的提示场景,从基本的相互作用查询到复杂的实体标记格式。通过改变实体标记程度和查询语句的特异性,探究不同输入结构和上下文信息对模型性能的影响。
- 实验评估流程:实验采用两阶段评估方法。第一阶段,从五个基准数据集选取代表性样本,使用 GPT - 3.5 和 GPT - 4 进行提示设计和初步评估;第二阶段,利用所有六个数据集,对多个专有 LLMs 进行综合性能评估。评估指标包括召回率(Recall)、精确率(Precision)和 F1分数(F1 - score),确保了评估的全面性和科学性。
下面来看具体的研究结果:
- 候选提示的确定:通过对通用提示(Prompts 1 - 5)的评估发现,在样本数据集中,Prompt 5 表现最为出色。它能够帮助 GPT 在 PPI 预测中准确识别多个同名蛋白质,并根据内容关联列出实际的相互作用组。进一步研究发现,单句输入方法对模型性能的影响更为稳定,且 GPT - 4 的性能优于 GPT - 3.5。对于专门处理嵌套蛋白质命名实体的 Prompt 6,研究人员创建了评估样本集进行测试。结果显示,Prompt 6 在 GPT - 3.5 和 GPT - 4 模型中的表现均优于 Prompt 1,表明提供复合术语信息有助于提升大语言模型的性能。
- PPI 数据集的性能评估:使用最终确定的 Prompt 5 和 Prompt 6,对 GPT - 3.5、GPT - 4 和 Google Gemini 1.5(包括 Flash 和 Pro 版本)在六个 PPI 数据集上的性能进行评估。结果表明,Gemini 1.5 Pro 在大多数数据集上表现卓越,在 LLL、IEPA、HPRD50 和 PEDD 数据集上获得了最高的 F1分数。GPT - 4 在 LLL 数据集上表现出较强的竞争力,在其他数据集上性能也较为稳定。GPT - 3.5 的性能相对较低。研究还发现,所有模型在预测时都存在对正输入实例的偏向,导致处理全负实例时区分能力下降。通过排除仅包含负实例的句子进行评估,所有模型在精炼数据集上的精确率和 F1分数都有所提高。
在讨论部分,研究人员指出,LLMs 在生物关系提取方面既有机遇也有挑战。不同模型和数据集的性能差异明显,LLMs 在处理复杂的语言结构和指代理解时存在困难,容易出现错误分类。例如,在一些句子中,模型会误判蛋白质之间的相互作用关系。此外,模型对正实例的预测偏向可能导致假阳性结果,在处理蛋白质复合物内部的相互作用时也存在不一致性。尽管如此,LLMs 仍具有独特的优势,如无需重新训练即可适应提示的能力,以及在特定数据集上微调后可能超越现有模型的潜力。未来,通过专门的预训练策略或架构修改,有望解决 LLMs 的正预测偏向问题,进一步提升其在生物医学领域的应用价值。
综上所述,这项研究通过精心设计的提示工程,探索了大语言模型在蛋白质 - 蛋白质相互作用识别中的应用。研究结果不仅为生物医学研究人员提供了实用的工具,也为未来 LLMs 在生物医学领域的发展指明了方向。随着 LLM 技术的不断进步,它有望在生物医学研究中发挥更大的作用,推动生命科学和健康医学领域的发展。