基于语义与句法增强的绵羊疾病防治知识图谱联合抽取模型SemSynJE研究

【字体: 时间:2025年06月17日 来源:Computers and Electronics in Agriculture 7.7

编辑推荐:

  针对绵羊疾病防治文本中三元组重叠与噪声问题,研究者提出语义-句法增强的联合抽取模型SemSynJE。该模型融合BERT-BiGRU增强语义表征,设计句法校验层消除三元组噪声,在自建数据集SDPT-KG上F1达96.2%,为农业领域知识图谱构建提供新方法。

  

绵羊养殖规模的扩大使得疾病防治知识获取面临严峻挑战。传统依赖人工查阅专业书籍的方式效率低下,而构建知识图谱(Knowledge Graph, KG)可支持智能问答等下游应用。然而,从非结构化文本中抽取(subject, relation, object)形式的三元组时,绵羊疾病文本中普遍存在三元组重叠现象——包括单实体重叠(SEO)和实体对重叠(EPO),导致提取过程中产生虚假关系(如将“葡萄糖剂量100ml”误判为有效三元组)。现有模型如CasRel、TPLinker虽能处理重叠问题,但对同类型实体对引发的噪声三元组缺乏有效过滤机制。

为此,中国的研究团队提出语义-句法增强联合抽取模型SemSynJE。该研究首先构建了中文绵羊疾病防治知识图谱数据集SDPT-KG(含11类实体和13种关系),随后通过BERT预训练模型编码文本,结合BiGRU(双向门控循环单元)增强局部语义信息,并将嵌入向量与BERT的CLS(分类)向量融合以强化全局语义。模型采用多标签模块识别主体/客体及其类型,利用注意力机制确定关系类型,最终创新性地设计句法校验层(Syntactic Check Layer),基于实体位置和类型信息过滤噪声三元组。在SDPT-KG、DiaKG和CMeIE-V2数据集上的实验显示,SemSynJE的F1值分别达到96.2%、63.9%和53.7%,显著优于基线模型。

关键技术方法

  1. 文本编码:采用BERT预训练模型获取上下文表征
  2. 语义增强:BiGRU提取局部特征,CLS向量融合全局特征
  3. 实体识别:多标签分类模块并行抽取主体/客体及类型
  4. 关系判定:注意力机制结合实体类型特征
  5. 噪声过滤:句法校验层通过实体位置/类型规则验证三元组合法性

研究结果

  1. 模型架构验证:SemSynJE的五模块设计(编码器、主体解码器、基于主体的客体解码器、关系抽取层、句法校验层)通过消融实验证实各组件对性能提升的贡献。
  2. 语义增强效果:BiGRU+CLS的联合策略使局部与全局语义互补,较单一BERT编码提升F1值2.3%。
  3. 噪声消除能力:句法校验层在SDPT-KG上消除87.6%的虚假三元组,尤其有效解决同类型实体对导致的SEO误判问题。

结论与意义
该研究构建的SDPT-KG填补了绵羊疾病防治领域数据集的空白。SemSynJE模型通过语义-句法双维度增强,不仅解决了复杂文本中的三元组噪声问题,其方法论可扩展至其他领域知识图谱构建。研究团队指出,未来可探索更细粒度的句法规则(如依存树分析)进一步提升校验精度。该成果发表于《Computers and Electronics in Agriculture》,为农业信息化提供了可落地的技术方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号