知识增强与文档信息全利用的生物医学文档级关系抽取框架KnowFDI研究

《Scientific Reports》:Knowledge enhancement and full utilization of document information for document-level biomedical relation extraction

【字体: 时间:2025年12月21日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对文档级生物医学关系抽取(BioDocuRE)中外部知识整合不足及文档信息利用不充分的问题,提出KnowFDI框架,通过融合局部/全局上下文、文档结构特征与外部生物医学知识,在CDR和GDA基准测试中实现最先进性能,显著提升跨句关系抽取准确率,为生物医学知识发现提供新思路。

  
在生物医学文献挖掘领域,从科学文献中自动提取实体间关系一直是支撑知识发现和临床决策的关键技术。传统方法多局限于句子层面的关系识别,然而现实中的生物医学关系往往分散在文档的多个句子甚至全文中。这种跨句的复杂关系模式,使得文档级生物医学关系抽取(BioDocuRE)成为更具挑战性的任务。现有方法大多仅依赖文本本身的分布式表示,未能充分利用外部领域知识,也难以全面整合文档内的多粒度结构信息,导致对长距离依赖关系的推理能力有限。
针对这些挑战,新疆大学陈欣、何亮与刘宇涵团队在《Scientific Reports》上发表了题为"Knowledge enhancement and full utilization of document information for document-level biomedical relation extraction"的研究论文,提出了KnowFDI创新框架。该研究通过系统整合局部与全局上下文信息、显式文档结构特征以及外部实体中心领域知识,显著提升了文档级生物医学关系抽取的性能。
关键技术方法
研究采用四阶段流程:文档编码与预处理中使用BioLinkBERT模型获取上下文表征;多源特征提取阶段同时获取上下文、结构和知识表征;信息融合与推理阶段采用两阶段通道注意力机制动态整合多源特征;关系分类阶段使用自适应阈值损失函数处理多标签预测。特别构建了包含提及节点、实体节点和桥接节点的异质文档图,应用关系图卷积网络(R-GCN)编码结构依赖,并从MeSH或NCBI Gene等生物医学知识库检索实体描述性知识增强语义理解。
研究结果
整体性能达到领先水平
在CDR(化学-疾病关系)和GDA(基因-疾病关联)两个基准数据集上的实验表明,KnowFDI在整体F1值、精确率和召回率上均优于现有方法。在CDR数据集上获得86.8%的整体F1值,在GDA数据集上获得84.8%的整体F1值,特别是在跨句关系抽取任务中表现突出,CDR跨句F1值达79.5%,GDA跨句F1值达69.6%。
细粒度分析验证模型优势
按关系距离和实体类型的性能分析显示,KnowFDI对长距离依赖关系具有更强鲁棒性。随着关系距离增加,性能下降幅度较小,表明模型能有效捕捉文档范围内的语义关联。在复杂或模糊实体类型上表现尤为突出,体现了知识整合和文档级建模的协同优势。
消融研究确认组件贡献
系统的消融实验验证了各组件必要性。移除外部知识导致CDR整体F1值从86.8%降至84.8%,跨句F1值从79.5%降至74.9%,表明外部知识对复杂生物医学关系推理至关重要。两阶段融合机制相比单阶段融合在CDR整体F1值上提升2.7%,证明分层注意力设计的有效性。图神经网络层数影响分析发现4层R-GCN能达到最优性能平衡。
案例研究展示实际应用价值
通过具体案例剖析,研究发现KnowFDI能成功提取挑战性跨句关系,如"雌激素-子宫内膜异位症"关系推断。模型通过桥接节点连接跨句信息,结合外部知识描述,实现准确推理。同时也识别出现有方法的局限性,当知识库覆盖不全时,罕见实体关系抽取仍面临挑战。
结论与展望
KnowFDI框架通过全面整合多粒度文档信息与外部知识,为文档级生物医学关系抽取提供了创新解决方案。其在两个标准数据集上的卓越表现,特别是跨句关系抽取方面的显著提升,证明了多层次信息融合策略的有效性。研究不仅推进了生物医学文本挖掘技术发展,也为处理复杂文档级依赖关系提供了方法论借鉴。
未来研究方向包括扩展知识资源多样性,整合临床指南等多模态数据,发展更先进的知識整合机制。随着生物医学文献的持续增长,此类技术将在知识图谱构建、药物发现和临床决策支持等领域发挥越来越重要的作用。该研究的开源实现和可复现性也为后续研究奠定了良好基础,有望推动生物医学自然语言处理领域的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号