
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于语义与句法增强的绵羊疾病防治知识图谱联合抽取模型SemSynJE研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Computers and Electronics in Agriculture 7.7
编辑推荐:
针对绵羊疾病防治文本中三元组重叠与噪声问题,研究者提出语义-句法增强的联合抽取模型SemSynJE。该模型融合BERT-BiGRU增强语义表征,设计句法校验层消除三元组噪声,在自建数据集SDPT-KG上F1达96.2%,为农业领域知识图谱构建提供新方法。
绵羊养殖规模的扩大使得疾病防治知识获取面临严峻挑战。传统依赖人工查阅专业书籍的方式效率低下,而构建知识图谱(Knowledge Graph, KG)可支持智能问答等下游应用。然而,从非结构化文本中抽取(subject, relation, object)形式的三元组时,绵羊疾病文本中普遍存在三元组重叠现象——包括单实体重叠(SEO)和实体对重叠(EPO),导致提取过程中产生虚假关系(如将“葡萄糖剂量100ml”误判为有效三元组)。现有模型如CasRel、TPLinker虽能处理重叠问题,但对同类型实体对引发的噪声三元组缺乏有效过滤机制。
为此,中国的研究团队提出语义-句法增强联合抽取模型SemSynJE。该研究首先构建了中文绵羊疾病防治知识图谱数据集SDPT-KG(含11类实体和13种关系),随后通过BERT预训练模型编码文本,结合BiGRU(双向门控循环单元)增强局部语义信息,并将嵌入向量与BERT的CLS(分类)向量融合以强化全局语义。模型采用多标签模块识别主体/客体及其类型,利用注意力机制确定关系类型,最终创新性地设计句法校验层(Syntactic Check Layer),基于实体位置和类型信息过滤噪声三元组。在SDPT-KG、DiaKG和CMeIE-V2数据集上的实验显示,SemSynJE的F1值分别达到96.2%、63.9%和53.7%,显著优于基线模型。
关键技术方法
研究结果
结论与意义
该研究构建的SDPT-KG填补了绵羊疾病防治领域数据集的空白。SemSynJE模型通过语义-句法双维度增强,不仅解决了复杂文本中的三元组噪声问题,其方法论可扩展至其他领域知识图谱构建。研究团队指出,未来可探索更细粒度的句法规则(如依存树分析)进一步提升校验精度。该成果发表于《Computers and Electronics in Agriculture》,为农业信息化提供了可落地的技术方案。
生物通微信公众号
知名企业招聘