知识增强预训练语言模型在生物医学关系抽取中的基准测试与性能评估

【字体: 时间:2025年10月08日 来源:BMC Bioinformatics 3.3

编辑推荐:

  本研究针对生物医学关系抽取中预训练语言模型(PLM)增强策略缺乏统一评估的问题,系统比较了PubMedBERT、RoBERTa-large和BioLinkBERT-large三种PLM在五个数据集上的性能。通过超参数优化和多种知识增强方式(文本描述、知识图谱嵌入、分子结构编码)的测试,发现大型PLM(如BioLinkBERT-large)本身已隐含部分外部知识,而增强策略仅对参数较少的模型有效。研究为生物医学NLP领域提供了重要基准,揭示了模型规模与外部知识补充的替代关系。

  
随着生物医学文献的爆炸式增长,如何自动从海量文本中抽取实体间的关系(Relation Extraction, RE)已成为加速科学发现的关键技术。特别是在药物警戒和药物研发领域,准确识别药物相互作用(DDI)或化学-蛋白质相互作用(CPI)能有效预防不良反应并提升治疗效能。近年来,基于预训练语言模型(Pre-trained Language Models, PLM)的方法已成为关系抽取的主流方法,通过在海量领域文本上预训练后再用标注数据微调(fine-tuning),显著提升了抽取性能。
然而,现有研究在探索如何增强PLM性能时存在明显分歧:许多研究报道通过引入外部知识(如实体描述、知识图谱关系、分子结构信息)能显著提升模型效果,但这些研究使用的PLM基底、增强数据库、超参数设置和评估方法各不相同,导致结论难以直接比较和推广。更令人困惑的是,某些研究发现经过精心超参数优化的PLM实际上并不明显受益于外部知识增强。这种矛盾使得领域内产生了一个核心问题:PLM到底是否需要外部知识增强?如果需要,在什么条件下有效?
为了回答这个问题,来自柏林洪堡大学和阿斯利康的研究团队在《BMC Bioinformatics》上发表了系统性基准研究。他们选取了五个覆盖化学-疾病(BC5CDR)、化学-基因(ChemProt、CPI)、药物-药物(DDI)和基因-疾病(ChemDisGene)关系的数据集,在统一的评估框架下测试了三种主流PLM(PubMedBERT、RoBERTa-large-PM-M3-Voc、BioLinkBERT-Large)的性能,并首次综合比较了文本描述、知识图谱嵌入和分子结构信息三种增强策略的有效性。
研究首先对每个PLM进行了108种超参数组合的优化,包括学习率(5e-6至5e-5)、序列长度(256-512)、批次大小(8-32)、上下文句子(0-1)和任务提示(是否添加)等。在确定最佳配置后,研究人员依次集成了三类外部信息:(1)从CTD、NCBI Gene等数据库获取的实体文本描述;(2)基于CTD知识图谱通过MuRE和RotatE训练得到的知识嵌入向量,以及从文献中提取的实体表示;(3)针对化学实体的分子结构编码,包括分子指纹(Morgan、RDKit等)和基于Transformer的化合物语言模型(MolBERT、ChemBERTa)。
关键技术方法包括:使用Huggingface Transformers和PyTorch Lightning实现PLM微调框架;通过PyKeen训练知识图谱嵌入;利用RDKit生成分子指纹;采用PubMedBERT、RoBERTa-large和BioLinkBERT-large作为基础模型;使用BigBio库统一处理五个生物医学关系数据集;对所有实验采用固定随机种子(907)确保可重复性;使用NVIDIA A100 GPU进行模型训练与评估。
主要研究结果
1. 基础模型性能对比
在所有数据集上,BioLinkBERT-large均表现最佳(F1分数:ChemProt 79.92, DDI 83.24, BC5CDR 68.1),其次是RoBERTa-large和PubMedBERT。大型模型(BioLinkBERT和RoBERTa)参数规模(约3.55亿/3.33亿)是PubMedBERT(1亿)的三倍多,性能优势明显。值得注意的是,句子级关系抽取(ChemProt、CPI、DDI)的性能普遍优于文档级(BC5CDR、ChemDisGene),后者因需要跨句子推理而更具挑战性。
2. 知识增强的整体效果
令人意外的是,在最佳基础模型(BioLinkBERT-large)上,外部知识增强带来的整体改进有限:40种测试配置中,30种性能反而下降。文本描述在76%的情况下无效,仅在ChemProt上略有提升(79.92→80.15);知识嵌入仅在DDI、CPI和ChemProt上有微弱改善;分子指纹对DDI和CPI有效(DDI: 83.24→83.94),但更先进的MolBERT/ChemBERTa反而无效。
3. 模型规模的关键影响
当使用参数较少的PubMedBERT时,外部知识增强显示出明显收益:文献嵌入平均提升0.9% F1,知识图谱嵌入和分子结构信息也有效。这表明大型PLM可能已经隐式编码了外部知识中的监督信号,而较小模型才显式需要这些补充。
4. 关系类型与训练数据量的异质性
细粒度分析揭示,增强策略对不同关系类型效果不同:在ChemProt中,结构信息对激动剂(Agonist)和拮抗剂(Antagonist)提升明显,而嵌入信息对底物(Substrate)更有效。训练数据量分析表明,ChemProt和ChemDisGene需要大量标注数据才能达到良好性能,而BC5CDR、CPI和DDI在少量数据(25篇文档)下也能取得不错效果。
5. 零样本场景的改进
对外部知识有效的配置进行分析发现,34.5-69.4%的改进案例涉及训练集中未出现的实体(零样本场景),说明外部知识特别有助于模型泛化到新实体。
研究结论强调,选择适当的PLM(如BioLinkBERT-large)和细致的超参数优化比外部知识增强更重要;但对于资源受限场景(小模型或少标注数据),引入外部知识仍是有效策略。该研究为生物医学关系抽取提供了首个综合基准,澄清了领域内长期存在的争议,对未来方法开发和实际应用具有重要指导意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号