综述:基于SAO语义全面理解的专利文本相似性新方法

【字体: 时间:2025年10月13日 来源:World Patent Information 1.9

编辑推荐:

  本综述系统评估了基于主语-动作-宾语(SAO)结构的专利相似性分析方法,通过构建专用数据集(STS)验证了向量化与知识图谱技术相较于传统lexical-based方法的优势,并提出融合SAO嵌入与聚类加权的优化框架,为专利新颖性判断和侵权分析提供新范式。

  
专利文本相似性方法:SAO语义的全面理解与应用
引言
在经济全球化与技术竞争加速的背景下,专利已成为支撑技术机会识别、侵权分析和创新管理的关键技术法律文档。全球专利申请量的指数级增长,推动了对高效相似性检索方法的需求。传统专利文本相似性分析主要依赖引文分析、分类代码(如IPC)和关键词匹配三种方法,但这些方法存在引用滞后、分类粒度粗糙、语义捕捉不足等局限。有效评估专利相似性需要超越简单术语匹配,深入理解权利要求书和说明书中的语境解释,这要求整合文本分割、语义特征提取、加权策略和鲁棒计算方法。主语-动作-宾语(SAO)方法将专利文本转化为结构化的语义三元组,表征技术功能与关系,为相似性分析提供了新思路。
尽管SAO方法展现出潜力,仍面临三大挑战:缺乏专用于专利的标准化语义文本相似性(STS)数据集;现有方法多针对特定应用而非通用检索需求;SAO结构与现代深度学习技术的系统性对比不足。同时,人工智能(AI)与机器学习(ML)技术的发展为专利分析提供了文本嵌入(如BERT等预训练模型)和主题建模等新方法,但其与SAO方法的比较研究尚不充分。
方法论创新与实验设计
本研究通过构建专利相似性数据集(包括3分量表相似性数据集和排序数据集),系统评估了SAO处理技术(提取方法、加权策略、相似性计算途径),并与基于词法、向量、知识和深度学习的方法进行实证比较。关键创新点包括:
  • 开发专用基准数据集,促进结果复现与后续研究;
  • 综合分析文本片段选择、权重分配、相似性阈值调整及领域预训练嵌入(如专利专用BERT变体)对精度的影响;
  • 提出优化框架,整合SAO嵌入与聚类加权策略,并通过知识扩展增强语义理解。
实验结果表明,向量化方法(如词嵌入加权平均)和知识图谱方法(如SAO结构对齐)在专利相似性评估中表现优异,尤其在捕捉技术功能语义方面超越传统关键词匹配。通过阈值优化和自动权重学习,SAO方法的召回率与准确率显著提升。
案例验证与结论
通过案例研究验证了所提框架的实用性,克服了专家评价主观性、案例样本有限性等传统验证方法的不足。结论指出:
  • 本研究构建的专利相似性数据集填补了IP数据分析空白;
  • SAO结构能有效表征技术方案本质,结合嵌入技术与加权策略可提升相似性计算精度;
  • 向量化与知识驱动方法为专利审查员、IP律师和研发策略师提供了更有效的工具。
未来研究方向包括扩展多语言专利数据处理、探索跨技术领域迁移学习,以及深化SAO与生成式AI(如GPT系列模型)的融合应用。
作者贡献与基金支持
作者团队来自北京信息科技大学互联网文化与数字传播北京市重点实验室,研究受国家自然科学基金(61671070)、北京市教委科研项目(KM202311232004)等资助,无利益冲突声明。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号