基于锚定跨度(anchor span)的命名实体识别在制造知识提取中的应用
《Engineering Applications of Artificial Intelligence》:Named entity recognition based on anchor span for manufacturing knowledge extraction
【字体:
大
中
小
】
时间:2025年10月11日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
针对制造领域短文本中多层嵌套实体识别难题,提出锚点跨度机制结合token与span分类的ASNER方法,利用边界匹配神经网络和双向注意力机制实现精准实体定位,有效提升高信息密度文本的知识抽取精度。
李亚辉|孙琪|周春杰|刘璐|田宇楚
华中科技大学人工智能与自动化学院,武汉,430074,湖北,中国
摘要
命名实体识别(NER)是基于知识的智能制造系统的基本组成部分,它能够将非结构化文本转换为结构化的语义信息。然而,当前的NER方法在处理知识提取中的多层实体嵌套时面临挑战,尤其是在短文本中嵌入了大量信息的情况下。为了解决这个问题,本文提出了一种基于锚点范围的NER(ASNER)方法,该方法结合了标记和范围分类,以准确高效地提取制造知识。该方法利用基于实体头部和尾部特征的边界匹配神经网络来生成潜在实体的相应锚点范围,从而在各种上下文中实现精确且稳健的实体定位。随后,该方法通过使用双线性注意力机制和卷积神经网络提取标记的空间上下文特征,并为经过锚点范围过滤的实体特征分配分类类别。实验研究证明了所提出的ASNER方法的有效性。
引言
在工业4.0时代,基于知识的智能制造系统已成为提升智能生产优化和决策的重要手段(Wang等人,2024年)。制造领域中大量有价值的信息存在于非结构化文本数据中。统计数据显示,制造生命周期中约80%的关键知识都包含在文本数据格式中(Ur-Rahman和Harding,2012年),例如设备手册、维护记录、工艺文档、工业标准和故障报告。在这种情况下,从各种非结构化文本来源中准确提取结构化知识至关重要。
命名实体识别(NER)是自然语言处理(NLP)中的一个基本任务,它涉及识别并将非结构化文本中的实体引用文本段分类到预定义的类别中。它是结构化知识自动化提取的基石,支撑着广泛的基于知识的下游应用。近几十年来,NER方法取得了显著进展。序列标注方法(Lample等人,2016年)将文本视为一系列标记,在平面NER任务中表现出色。相比之下,基于范围的方法同时建模实体边界和类型(Yu等人,2020年),为重叠结构提供了更大的灵活性,并在嵌套NER场景中表现出色。基于超图的方法通过将潜在实体范围表示为超边(Huang等人,2021年)进一步增强了这一能力,使得全局推理成为可能,从而解决了序列模型难以处理的冲突。最近,生成模型将NER转化为条件文本生成任务(Wang等人,2025年),有效处理了不连续的范围。每种方法都从不同的模型范式为NER的发展做出了独特贡献,从处理简单的平面NER结构发展到处理更复杂的嵌套配置。
然而,与通用领域文本相比,制造文本具有独特的语言风格、复杂的领域特定术语和紧凑的句法结构。多层嵌套特性给现有的NER方法带来了更大的挑战,使得这些方法在捕捉专业工业术语的上下文语义时受到显式边界监督能力的限制(Seow等人,2025年),尤其是在短文本中嵌入了大量信息的情况下,这可能导致关键元素的丢失或引入错误。如图1所示,“stream”一词同时指代材料成分(“蒸汽量”)和设备参数(“轻柴油蒸汽脱塔的蒸汽量”)。如果未能准确识别内部成分(“蒸汽”),可能会导致理解这些知识节点之间关系的关键上下文信息丢失。此外,制造领域缺乏高质量的数据,限制了大规模基于学习的方法的可行性(Ming等人,2025年)。
为了解决这些挑战,本文提出了一种基于锚点范围的NER(ASNER)方法。该方法通过对标记和范围进行多尺度分类,并采用锚点范围提案和投影机制,有效地捕获了平面和嵌套实体。本文的贡献如下:
- •
提出了一种基于标记和范围分类的锚点范围提案和投影机制,有助于准确提取平面和嵌套的命名实体。
- •
设计了一种神经网络,用于判断实体头部-尾部边界对是否匹配,解决了贪婪策略导致的实体遗漏问题。
- •
设计了一种ASNER方法,通过将NER任务分为锚点范围生成和分类两部分,从而精确提取制造知识。
- •
基于催化裂化操作手册语料库构建了一个中文嵌套NER数据集,用于评估所提出的ASNER方法在真实制造文本上的性能。
在六个公开的平面和嵌套NER数据集以及石油精炼手册的实际文本语料库上进行了实验,以验证所提出的ASNER方法的有效性。
本文的其余部分组织如下:第2节回顾了相关工作,以说明本文的工作背景。第3节讨论了所提出的方法论。第4节展示了实验结果。最后,第5节对本文进行了总结。
相关工作
相关研究
在过去几十年中,NER从早期的基于规则和统计的方法发展到神经架构和预训练的语言模型。根据实体之间的关系,NER可以进一步细分为多个类别,主要是平面NER和更复杂的嵌套NER。
以往的研究通常将NER视为一个序列标注任务,涉及使用BIO(Beginning-Inside-Outside)等方案为每个成员分配分类标签
方法论
在本节中,我们介绍了我们的ASNER方法,该方法利用锚点范围机制从具有高信息密度的短文本上下文中提取知识。通过结合标记级和范围级的分类,它能够在复杂的句法结构中实现准确的实体定位和识别。首先,我们将概述问题,然后介绍ASNER的架构和实现原则。
实验
在各种设置下对七个不同的数据集进行了实验研究,以评估ASNER的有效性。本文提供了实验设置和实验结果的全面概述。
结论与未来工作
从文本数据中提取结构化知识对于提升制造业的智能化至关重要。在这项研究中,我们提出了ASNER,这是一种实用的命名实体识别方法,旨在从资源有限的多语言内容中提取制造知识。通过整合标记和范围分类策略,我们的方法成功识别了嵌套的命名实体,特别是在信息密度高的短文本中。系统评估表明
CRediT作者贡献声明
李亚辉:撰写——原始草案,方法论。孙琪:验证,数据管理。周春杰:撰写——审阅与编辑,资源管理,项目协调。刘璐:撰写——审阅与编辑。田宇楚:撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
致谢
本项工作部分得到了国家自然科学基金(资助编号:62127808和62320106005)和澳大利亚研究委员会(ARC)通过Discovery Projects Scheme(资助编号:DP220100580)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号