通过整合大型语言模型和知识图谱来推荐专利技术相关知识
《Engineering Applications of Artificial Intelligence》:Patent technology knowledge recommendation by integrating large language models and knowledge graphs
【字体:
大
中
小
】
时间:2026年02月13日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
如何快速获取高相关性和可解释的专利知识成为研发创新的关键问题。本研究提出基于专利文本的技术知识推荐框架,整合知识本体、图表示学习和RAG技术:首先构建分层细粒度本体模型,通过两阶段提示工程实现专利知识提取和知识图谱构建;其次融合语义与结构信息提出知识图谱表示学习方法;最后设计本体驱动的元路径生成策略与RAG结合,引入LLM评分修剪机制提升推荐内容的相关性和可解释性。实验证明该方法优于基线模型,有效支持专利知识在研发场景中的复用与创新。
杨佩毅|吴学伟|文佩涵
重庆大学管理科学与房地产学院,中国重庆
摘要
随着技术复杂性的增加以及研发(R&D)活动的跨学科性质,如何快速获取高度相关且可解释的专利知识已成为工程创新中的一个重要问题。鉴于专利文本中固有的高信息密度、专业术语的丰富性和复杂的结构,以及在研发场景中对知识推荐准确性和可解释性的严格要求,本文提出了一种基于专利文本的技术知识推荐框架,该框架整合了知识本体、图表示学习和检索增强生成(RAG)技术。首先,构建了一个用于专利技术知识的层次化细粒度本体模型。在此基础上,通过两阶段提示工程实现了高效的知识提取和知识图谱(KG)构建。其次,提出了一种结合语义信息和结构信息的KG表示学习方法,该方法通过语义增强表示和关系图卷积网络实现了技术知识挖掘。最后,引入了基于本体的元路径生成策略,并将其与RAG相结合,通过大型语言模型(LLM)生成推理路径,并引入了基于LLM分数的剪枝机制来提高推荐内容的相关性和可解释性。基于案例的实验表明,所提出的方法优于基线方法,并为研发场景中专利知识的重用和创新提供了技术支持。
引言
在技术驱动的创新时代,快速的市场迭代显著缩短了产品开发周期,同时大幅增加了新产品更新的频率(Yang和Wen,2025)。在研发过程中,企业不仅需要迅速响应用户对新技术应用的期望,还必须在有限的时间内完成跨学科技术整合和解决方案设计。随着产品复杂性的不断提高,研究人员越来越需要同时处理来自不同领域的知识,这些知识往往表现出相互交叉、互补甚至冲突的关系。因此,能够快速、系统地检索并整理与市场需求相关的技术知识已成为当代研发中的一个关键挑战。
专利是各个领域技术知识的丰富存储库,包含了关于技术原理、结构设计和应用场景的宝贵见解(Xu等人,2019)。在研发过程中,分析专利信息使企业能够了解领先竞争对手的发展方向,理解他们为解决特定问题所采用的技术路径,从而获得重要的技术灵感(Venugopalan和Rai,2015)。同时,这种分析还允许公司评估与现有技术解决方案相关的潜在侵权风险并采取预防措施。然而,这些知识元素通常是非结构化的且密度很高,给信息提取和理解带来了很大困难(Lupu等人,2017)。
许多研究试图通过构建本体来对这些分散的知识进行整理。例如,建立概念知识关联(Shi等人,2017),从功能和结构角度设计主谓宾(SVO)本体(Cheong等人,2017;Liu等人,2022),以及基于经典功能-行为-结构(FBS)(Gero,2000)模型开发的扩展框架(Cheng等人,2024;Cong等人,2025;Jiang等人,2024)。这些努力还得到了先进的知识挖掘分析方法的支持(Murphy等人,2014),以及使用结构化知识库来支持研发过程中的检索和替代方案生成(Zhai等人,2022)。然而,以往关于专利知识组织的工作主要集中在浅层表示上(例如功能和结构),往往忽略了发明的动态和过程导向特性。此外,早期的提取工作严重依赖于手动定义的规则,导致知识组织过程耗时且可扩展性较差。大型语言模型(LLM)的出现大大降低了通用领域信息提取的难度(Xu等人,2024),并促进了特定领域科学知识系统的构建(Dagdelen等人,2024)。然而,将提取的知识应用于具体设计场景仍处于早期阶段。
大量研究表明,探索专利文本中技术知识元素之间的隐含关系可以激发创新思维。例如,Liu等人引入了一种基于机器学习的概念网络,从文本数据中提取创新概念及其关联(Q. Liu等人,2020)。Sarica等人提出了一种方法,利用焦点设计领域来指导对相邻未探索空间的探索,从而生成新技术(Sarica等人,2021)。最近的趋势包括使用图结构组织知识,如大规模语义网络中的链接预测(B-link)(Shi等人,2017)或无向网络(Sarica等人,2020)来生成创新想法。图嵌入技术在类似的专利推荐任务中也取得了显著成功(Choi等人,2022)。然而,大多数这些研究仅关注专利层面的显式关联,很少深入探讨技术知识层,使得基于上下文的知识推荐成为一个需要进一步探索的领域。
此外,工程设计已经从传统的事实检索发展为人类与AI的协作任务(Yu等人,2025),从经验驱动转向数据驱动、结构化和智能化的方法(Wen等人,2025)。检索增强生成(RAG)的引入是一个显著的趋势。当与知识图谱作为外部知识库结合使用时,RAG不仅在支持个性化设计方面表现出色(Pan等人,2025;Zhuang等人,2025),还缓解了LLM中固有的幻觉和黑箱问题(Agrawal等人,2024)。Siddharth及其同事利用从专利文本中提取的工程设计事实作为知识库来支持知识响应式设计过程(Siddharth和Luo,2024)。然而,他们的方法往往忽略了专利知识的跨领域关联以及同一技术在不同应用场景中的多种实现方式。
总之,当前的研究存在两个主要局限性:首先,缺乏对专利文本中嵌入的动态创新过程的结构化组织;其次,需要进一步研究跨领域工程设计知识的关联,特别是在情境化设计知识推荐的背景下。为了解决这些挑战,本研究提出了一个综合解决方案,结合了专利知识建模、知识图谱表示学习和RAG。本研究的主要贡献有三个方面:
1)构建了一个工程设计知识本体模型,用于描述专利文本中嵌入的创新过程。该本体被转化为高效的提示模板,实现了两阶段提示工程方法,从而从专利文本中实现命名实体识别、知识实例关系提取和知识图谱(KG)构建。
2)提出了一种将语义信息纳入知识图谱表示学习的方法,以实现工程设计知识的推理。通过增强表示通过知识整合(ERNIE)生成实体和关系的高质量初始表示,随后在KG中使用链接预测技术进行相关知识挖掘。
3)设计了一种基于本体的工程设计知识推荐策略,并将其与RAG相结合。该策略首先使用本体引导的提示来指导LLM生成推理元路径。在相关知识挖掘过程中,引入了基于LLM的实体剪枝机制,以提高推理的可解释性,同时实现工程设计知识的上下文化推荐。
部分摘录
专利技术知识的组织
有效的知识组织方法是支持知识重用的关键基础(Buchgeher等人,2021)。研究表明,专利文本包含丰富的专业知识(Andersson等人,2014)。然而,专利是具有多种属性的多维文档,其中一些嵌入在非结构化文本字段中,而另一些则存储在结构化字段中。结构化的知识组织方法简单而有效;例如,信息如
方法论
我们提出了一个基于专利文本中技术知识的综合推荐框架,以解决如何从非结构化专利文本中系统地提取和组织多维技术知识的问题,以及如何在跨专利场景中实现高效且可解释的知识推理和推荐。该框架结合了知识建模、知识图谱表示学习和RAG来构建技术知识推荐
讨论
本研究的核心是通过有效的知识组织方法将跨学科技术知识整合到工程设计中,并将其应用于解决情境化的研发问题,从而提高专利技术知识的可重用性。从方法论的角度来看,该方法包括三个主要模块:基于细粒度本体的创新过程建模、集成语义和结构信息的异构知识图谱表示学习
结论
在这项研究中,我们系统地提出并验证了一个专利知识推荐框架,以解决专利知识的高信息密度、复杂结构和多样语义问题。在知识组织层面,提出了一个层次化细粒度本体模型,并将专利文本划分为五种类型的知识:背景、原理、结构、技术实现和收益,有效解决了之前的问题
CRediT作者贡献声明
杨佩毅:撰写——原始草稿、方法论、形式分析、数据整理、概念化。吴学伟:撰写——原始草稿、方法论、形式分析、概念化。文佩涵:撰写——原始草稿、监督、方法论、资金获取、形式分析、概念化。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文所述的工作。
致谢
本研究得到了中国国家社会科学基金(23BSH029)、中国重庆市自然科学基金(CSTB2022NSCQ-MSX1118)、中国重庆市社会科学规划项目(2025ZDZJ03)以及中国中央高校基本科研业务费(2024CDJSKJJ20)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号