基于语义与句法增强的绵羊疾病防治知识图谱联合抽取模型SemSynJE研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月17日 来源：Computers and Electronics in Agriculture 7.7

编辑推荐：

　　针对绵羊疾病防治文本中三元组重叠与噪声问题，研究者提出语义-句法增强的联合抽取模型SemSynJE。该模型融合BERT-BiGRU增强语义表征，设计句法校验层消除三元组噪声，在自建数据集SDPT-KG上F1达96.2%，为农业领域知识图谱构建提供新方法。

绵羊养殖规模的扩大使得疾病防治知识获取面临严峻挑战。传统依赖人工查阅专业书籍的方式效率低下，而构建知识图谱（Knowledge Graph, KG）可支持智能问答等下游应用。然而，从非结构化文本中抽取（subject, relation, object）形式的三元组时，绵羊疾病文本中普遍存在三元组重叠现象——包括单实体重叠（SEO）和实体对重叠（EPO），导致提取过程中产生虚假关系（如将“葡萄糖剂量100ml”误判为有效三元组）。现有模型如CasRel、TPLinker虽能处理重叠问题，但对同类型实体对引发的噪声三元组缺乏有效过滤机制。

为此，中国的研究团队提出语义-句法增强联合抽取模型SemSynJE。该研究首先构建了中文绵羊疾病防治知识图谱数据集SDPT-KG（含11类实体和13种关系），随后通过BERT预训练模型编码文本，结合BiGRU（双向门控循环单元）增强局部语义信息，并将嵌入向量与BERT的CLS（分类）向量融合以强化全局语义。模型采用多标签模块识别主体/客体及其类型，利用注意力机制确定关系类型，最终创新性地设计句法校验层（Syntactic Check Layer），基于实体位置和类型信息过滤噪声三元组。在SDPT-KG、DiaKG和CMeIE-V2数据集上的实验显示，SemSynJE的F1值分别达到96.2%、63.9%和53.7%，显著优于基线模型。

关键技术方法

文本编码：采用BERT预训练模型获取上下文表征
语义增强：BiGRU提取局部特征，CLS向量融合全局特征
实体识别：多标签分类模块并行抽取主体/客体及类型
关系判定：注意力机制结合实体类型特征
噪声过滤：句法校验层通过实体位置/类型规则验证三元组合法性

研究结果

模型架构验证：SemSynJE的五模块设计（编码器、主体解码器、基于主体的客体解码器、关系抽取层、句法校验层）通过消融实验证实各组件对性能提升的贡献。
语义增强效果：BiGRU+CLS的联合策略使局部与全局语义互补，较单一BERT编码提升F1值2.3%。
噪声消除能力：句法校验层在SDPT-KG上消除87.6%的虚假三元组，尤其有效解决同类型实体对导致的SEO误判问题。

结论与意义
该研究构建的SDPT-KG填补了绵羊疾病防治领域数据集的空白。SemSynJE模型通过语义-句法双维度增强，不仅解决了复杂文本中的三元组噪声问题，其方法论可扩展至其他领域知识图谱构建。研究团队指出，未来可探索更细粒度的句法规则（如依存树分析）进一步提升校验精度。该成果发表于《Computers and Electronics in Agriculture》，为农业信息化提供了可落地的技术方案。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号