《World Patent Information》:Towards efficient patent analysis: A large language model and BERT-refined methodology for keyphrase extraction
编辑推荐:
专利分析中的大语言模型与BERT优化方法研究。本文提出融合LLM和BERT的专利关键词提取框架,通过TF-IDF筛选候选词,利用LLM过滤无关项并识别关键实体,结合BERT细调的实体识别模型优化关键词。实验表明该方法在USPTO数据集上F1-score达52.97%,较KeyBERT等基准方法提升显著。
作者:姚佳穆(Yaojia Mu)、王建华(Jianhua Wang)、张华祥(Huaxiang Zhang)、甘忠学(Zhongxue Gan)、朱国牛(Guo-Niu Zhu)
复旦大学智能机器人与先进制造学院,中国上海200433
摘要
专利在工程设计中发挥着关键作用,它们保护创新成果、预测技术趋势并促进知识共享。然而,庞大的专利数量及其复杂的技术描述给有效分析和信息检索带来了巨大挑战。为了解决这些问题,我们提出了一种集成框架,该框架结合了大型语言模型(LLM)和经过BERT改进的方法来进行专利分析。具体来说,首先收集专利标题和摘要,然后使用词频-逆文档频率(TF-IDF)提取候选关键词。接着,利用LLM过滤无关术语并识别重要关键词来进一步完善这些关键词。随后,开发了一个经过微调的BERT模型用于命名实体识别(NER),以提取特定领域的关键词,这些关键词再通过我们的BERT改进关键词提取(BRKE)方法进一步优化。在大量美国专利数据集上的实验结果表明了所提出BRKE的有效性。当保留前10个关键词时,该方法获得了52.97%的最高F1分数,分别比KeyBERT、YAKE和RAKE高出9.52%、6.1%和2.35%。通过提高专利关键词提取的准确性,我们的贡献使得专利分析对分析师和设计工程师来说更加高效和易于使用。
引言
专利是全球技术知识最全面的存储库之一,据估计,专利文档中披露的信息有超过70%在其他科学或技术资源中是无法获得的[1]。作为推动高科技创新的关键工具,专利具有双重作用:它们保护知识产权并成为技术进步的催化剂[2]。根据世界知识产权组织(WIPO)的“2023年知识产权事实与数据”报告,截至2022年,全球有效专利数量达到了1730万项。这突显了全球创新的规模以及包含丰富技术知识的专利知识库的增长。为了解释这一庞大的信息库,采用了多种互补的专利分析方法:技术分析用于识别关键概念和创新;法律分析用于审查专利法和知识产权问题;经济分析用于评估市场影响和价值;竞争分析用于评估行业动态和竞争关系;趋势分析用于预测技术发展轨迹。每种分析方法都有其独特的目的,而它们的结合提供了对专利领域的更全面理解。然而,庞大的专利数量、密集的技术语言以及其中包含的复杂法律描述给有效分析和知识提取带来了重大挑战[3]。
许多研究旨在解决这些问题。在这些方法中,关键词提取在识别专利文档中的关键概念和主题方面起着关键作用[4]。基本上,关键词提取不仅简化了对复杂专利数据的理解,还为各种下游应用奠定了基础。例如,关键词通过将大型专利数据库组织成有意义的类别来促进高效导航和检索[5]、[6]。此外,关键词有助于构建技术语义网络,这些网络映射了技术和领域之间的关系。这些网络为创新趋势提供了宝贵的见解[7]、[8]。此外,它们在通过识别新兴技术和潜在增长领域来预测行业发展方面也起着关键作用[9]、[10]。
虽然关键词可以识别出重要的单个术语,但由多个词组成的关键词短语能提供对技术概念和关系的更深层次的理解[11]。例如,“人工智能”或“数据分析”这样的短语比“人工”或“数据”这样的孤立术语传达了更丰富和具体的含义。在需要精确技术语言的领域,这种封装复杂概念的能力使关键词短语特别有价值[12]。除了提高分析粒度外,关键词短语还提供了额外的上下文,这对于语义网络构建、趋势分析和专利景观分析等应用至关重要。
然而,目前许多关于专利关键词提取的研究仍然侧重于单个术语。这些方法往往忽略了多词关键词短语所能提供的更广泛见解。此外,许多现有的提取方法主要是为通用语言设计的,这限制了它们在处理具有专业技术词汇和复杂法律术语的专利文本时的有效性。因此,这些方法往往无法完全捕捉到专利的丰富和细微语义,从而限制了专利分析的深度和全面性。
为了解决这些问题,本文旨在开发适用于专利文本的方法。该方法专注于提取单个关键词和有意义的多词关键词短语。所提出的方法解决了专利的复杂性和专业语言问题,从而提高了专利文本分析的准确性和范围。在本文中,我们使用了特定领域的自然语言处理(NLP1)技术。我们采用了基于Transformer2的模型,如GPT-4o-mini和BERT3来处理上下文和处理复杂语义[15]。本文的主要贡献总结如下:
(1) 我们使用词频-逆文档频率(TF-IDF)和LLM改进4方法构建了一个大规模的专利关键词数据库,为监督式关键词和关键词提取提供了坚实的基础。
(2) 我们提出了一种BERT改进的关键词提取方法,该方法对BERT模型进行了微调,以用于命名实体识别(NER)任务,并通过整合词频和上下文语义提高了准确性。
(3) 我们提出了一种受KeyBERT5启发的优化关键词提取方法,通过加入候选词过滤来提高精度。与KeyBERT方法相比,它减少了余弦相似度计算。
(4) 在美国专利商标局(USPTO)的大量数据集上进行了广泛的实验,以评估所提出方法的有效性。实验结果表明,与基线方法相比,该方法在精度、召回率和F1分数方面表现更优。
对于专利分析师来说,我们的方法提高了关键词提取的准确性,从而加强了专利知识网络和检索系统。对于设计工程师来说,它有助于识别核心技术概念和新兴趋势,为未来的产品开发提供了可操作的见解。
本文的其余部分组织如下:第2节回顾相关工作;第3节概述方法;第4节提供案例研究;第5节进行比较和讨论;最后,第6节总结本文并展望未来工作。
专利分析中的关键词/关键词短语提取技术
专利关键词提取对于导航和分析专利数据至关重要[17]。它还支持分类、趋势分析和创新预测等任务。然而,由于专利的技术性和专业性语言,从专利中提取关键词比从一般文本中提取关键词更具挑战性,许多专利提取方法使用了最新的NLP技术[18]。为了解决这些挑战,已经开发了各种关键词提取方法。这些方法大致可以分为监督式和
所提出方法的框架
如图1所示,本文提出了一种结合LLM和BERT改进的方法来进行高效准确的关键词提取。首先,构建了一个标记的训练数据集,该数据集是从机器人技术和自动化领域的专利中派生出的特定领域关键词数据库。这些专利涵盖了控制系统、工业自动化和数据处理等关键技术。在此步骤中,使用了大型语言模型GPT-4o-mini来进一步完善提取的关键词
数据集和评估指标
为了评估所提出方法的有效性,我们将其应用于从专利标题和摘要中提取关键词和关键词短语。本案例研究专注于机器人技术领域的专利,这是一个技术文档非常丰富的快速发展的领域。我们使用第3.2节描述的数据集进行实验,以评估关键词和关键词短语提取的性能,该数据集包含13,199项专利。我们数据集中的关键词和关键词短语被用作真实值。
与其他方法的比较
为了进行全面评估,我们将我们的方法与三种用于单文本分析的流行方法进行了比较,即KeyBERT [41]、YAKE [50] 和 RAKE [70]。如表5所示,经过微调的BERT模型在精度、召回率和F1分数方面优于这些方法。结果表明,经过微调的BERT模型在关键词提取方面表现更佳。
对于关键词提取,我们将BRKE方法与
结论与未来工作
本文提出了一种结合大型语言模型和BERT改进的方法来进行高效专利分析。基于TF-IDF和LLM构建了一个大规模的关键词数据库,有助于解决专利关键词和关键词短语提取的挑战,并实现了更准确和高效的监督式提取方法。在关键词数据库的基础上,对BERT模型进行了微调,以用于NER任务,从而进一步完善了关键词提取。
CRediT作者贡献声明
姚佳穆:研究、方法论、数据整理、形式分析、验证、撰写——初稿。
王建华:研究。
张华祥:研究。
甘忠学:资金获取、监督。
朱国牛:概念化、研究、方法论、撰写——审稿与编辑、资金获取、项目管理、监督。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了中国上海市科技重大项目(项目编号:2021SHZDZX0103)和复旦大学全面繁荣计划重点项目(项目编号:XM06231744)的支持。
姚佳穆于2018年在中国长春的吉林大学获得机械工程学士学位。她目前在上海复旦大学智能机器人与先进制造学院攻读电子信息硕士学位。她的研究兴趣包括专利分析、自然语言处理和生成设计。