《World Patent Information》:A large language model-based method for trademark similarity analysis in the Brazilian context
编辑推荐:
商标相似性自动分析方法研究基于LLMs的分类与解释模型在巴西INPI商标审查中的应用,实现高精度相似性判断(准确率≈99%)和可解释性报告生成(专家评分>4.0)。
Igor Bezerra Reis | Rafael Angelo Santos Leite | Edilson Araujo Pires | Francisco José da Silva e Silva | Luciano Reis Coutinho | Ariel Soares Teles
马拉尼昂联邦大学(UFMA),圣路易斯,65.080-805,马拉尼昂州,巴西
摘要
商标旨在唯一且明确地标识公司提供的产品和服务。它是一种关键的无形资产,作为防止不公平竞争和加强公司市场定位的基本工具。然而,提交给巴西国家工业产权局(INPI)的商标申请数量不断增加,带来了重大挑战,如处理时间延长、决策不一致以及识别冲突的复杂性增加。在这种情况下,自动化的商标相似性分析方法对于提高INPI决策过程的效率、可靠性和速度至关重要。本研究提出了一种基于大型语言模型(LLMs)的方法,根据INPI的标准(文本、发音、意识形态和市场相关方面)对商标进行分类和解释。该方法分为两个主要部分:(1)用于识别商标之间冲突的分类模型;(2)用于提供两个商标是否相似的详细理由的解释模型。为了开发这种方法,使用了从INPI官方出版物中提取的真实案例数据集。评估了六种开源LLMs在分类和解释商标冲突方面的能力。结果表明,这些模型在识别相似性(准确率约99%,F1分数约98%,AUC约99%)方面表现优异。IP专家对这些解释报告的评分在0-5分范围内超过了4.0分。因此,我们基于LLM的方法显示出现代化商标审查过程的潜力。最终,本研究强调了LLMs在增强商标分析、减少主观性、提高透明度以及使商标保护更加便捷方面的潜力。
引言
商标是一种无形资产,赋予其所有者独家使用权,防止第三方不当利用其在市场中的声誉和身份。除了提供法律保护外,商标注册还有助于提高客户忠诚度和增加销售额,因为消费者通常将品牌的声誉与其产品或服务的质量联系在一起[1],[2]。商标保护对于避免因知识产权(IP)侵权造成的财务损失至关重要[3],[4]。
商标的定义可能因国家而略有不同,但在其功能上存在全球共识[5]。在巴西,国家工业产权局(INPI)是负责商标、专利、工业设计和地理标志等工业产权注册和保护的官方机构。INPI将商标定义为一种能够识别来源并区分产品或服务的独特标志。商标可分为四种主要类型[6]:文字商标、图形商标、复合商标和三维商标。独特且具有辨识度的商标使公司或组织能够在市场上建立和保护其身份。它成为消费者与公司特定产品或服务相关联的象征,被视为一种无形资产,赋予其所有者独家使用权,从而确保第三方无法利用该符号所代表的声誉[5],[7]。
如果商标不具有独特性,其他公司可能会使用它,导致消费者混淆并损害原始品牌的声誉。这种情况可能导致法律纠纷和IP侵权诉讼,这对相关方来说往往既昂贵又耗时[1]。在注册过程中,INPI会验证所申请的商标是否符合法律要求,包括原创性、独特性和与先前注册商标的无冲突性[6]。
当两个商标具有足够的相似性,从而在消费者心中引起混淆或不必要的联想时,INPI会将这种情况视为争议,这种争议可能源于不同维度(发音、视觉、概念(意识形态)或市场相关)的相似性;这通常会导致昂贵的法律冲突,影响小型企业和大型企业。在这种情况下,特别是对于仅由文字或表达组成的文字商标之间的相似性分析尤为复杂,因为它需要仔细考虑发音、文本和意识形态因素,严重依赖于消费者的发音和语义感知才能做出准确区分[2],[6],[8]。
相似性评估过程耗时较长是另一个重要问题。每年,INPI收到数十万份商标申请,这使得处理时间成为依赖商标保护在市场上运营的公司的关键因素。2018年,全球约有1090万件商标注册申请,比2017年增加了19.2%[9]。2024年,INPI注册了444,037件申请,比2023年增加了10.3%[10]。当前商标分析模型的另一个问题是过程的主观性。相似性评估由专家进行,即使遵循既定指南,他们也会根据个人经验和判断来解释商标特征。这种主观性可能导致不一致的决策,即在某些情况下批准具有相似特征的商标,而在其他情况下拒绝它们[11],[12]。
在这种情况下,人工智能(AI)技术,特别是基于大型语言模型(LLMs)的技术,由于其先进的语言处理能力和解释隐含上下文的能力,可以成为有前景的替代方案[13],[14]。LLMs在捕捉语言中的细微差别方面表现出巨大潜力[15],这对于评估商标相似性和做出更一致和客观的决策非常有益。此外,这些模型还能够为其决策生成解释,使其在需要透明度和可解释性的情境中成为有价值的工具[16],[17]。
本研究的目的是探讨使用开源LLMs来开发一种自动化和增强巴西注册商标之间相似性分析的方法。该方法由两个专门模型组成:分类模型和解释模型,确保分析的透明度和可靠性。第一个模型(分类器)通过使用INPI注册的各种真实商标冲突案例进行监督训练和评估。其目标是根据接收到的训练对两个商标是否相似进行分类。然后,将分类结果传递给第二个模型(解释器),该模型通过提示工程进行配置,使用IP专家评估的报告示例。该模型生成支持分类器决策的文本说明,考虑了商标的发音、意识形态、独特性和市场相关方面。
本文的其余部分组织如下。第2节介绍背景,包括巴西商标注册过程的概述和用于评估商标相似性的主要标准。第3节讨论了该领域的相关工作。第4节描述了数据集、提示设计以及用于训练、评估和监督LLMs的方法。第5节展示了实验结果,包括分类性能和解释报告的质量。第6节提供了主要发现的讨论,包括详细的错误分析、实际意义和局限性。最后,第7节总结了本文并概述了未来的工作方向。
节选
巴西的商标及其注册过程
商标可以是文字商标(由一个或多个单词组成的标志)、图形商标(绘画、图像、图形和/或符号)、复合商标(文字商标和图形商标的组合)或三维商标(本身具有独特物理形状)[6]。所有这些都被用来标识公司的产品或服务,其定义在世界各地的知识产权机构中高度一致[1],[2]。具体来说,文字商标也被称为
相关工作
近年来,AI集成到主要知识产权机构的行政工作中是一个重要发展。这些机构主要利用AI来提高审查过程的效率和准确性。例如,世界知识产权组织(WIPO)为其全球品牌数据库开发了一个基于AI的图像搜索工具[19]。该系统利用深度学习来识别视觉上相似的商标,从而改进了
材料与方法
本研究提出了一种方法,该方法使用两个LLMs:分类模型和解释模型。分类模型负责分析商标对,并确定它们是否相似或不同,提供“是”或“否”的客观回答。解释模型则负责生成详细的报告,根据发音、意识形态、独特性和市场亲和力等标准来证明分类模型的决策。
分类模型的性能
分类模型的性能表现各不相同。图4(a)展示了表现最佳的三个模型Mistral-Nemo、Qwen2-7B和Llama-3-8B的混淆矩阵。图4(b)展示了其他三个评估过的LLMs的混淆矩阵。
表3展示了每个指标的分类模型性能。Mistral-Nemo、Qwen2-7B和Llama-3-8B在比较评估中表现最为稳健。Mistral-Nemo取得了最高的准确率(0.9869)
分类模型的性能分析
大多数模型在假阳性和假阴性之间表现出平衡的分布,表明它们能够一致地正确识别相似性。这种对称性表明模型有效地捕捉到了确实存在冲突的商标和不会引起混淆的商标之间的细微差别,反映了良好的泛化能力。另一方面,Gemma-2-9B模型的准确率仅为0.515。为了全面了解情况,我们进行了进一步的研究
结论
在这项研究中,我们提出了一种基于LLMs的方法来分析商标之间的相似性。该方法整合了两个组件:一个通过监督方式训练的分类模型,用于根据INPI定义的技术标准识别潜在冲突;以及一个通过提示工程配置的解释模型,用于生成基于发音、意识形态、独特性和市场相关方面的详细文本说明。结果表明,LLMs具有
CRediT作者贡献声明
Igor Bezerra Reis:撰写——原始草稿、验证、软件、方法论、调查、形式分析、数据整理、概念化。Rafael Angelo Santos Leite:验证、方法论、调查、形式分析、数据整理。Edilson Araujo Pires:形式分析。Francisco José da Silva e Silva:资源获取、资金筹集。Luciano Reis Coutinho:资源获取、资金筹集。Ariel Soares Teles:撰写——审稿与编辑、监督、项目管理
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本研究得到了巴西联邦研究生教育支持与评估机构 - CAPES [财务代码001];巴西国家科学技术发展委员会 - CNPq [资助编号308059/2022-0和441817/2023-8];以及马拉尼昂州资助机构 - FAPEMA [资助编号APP-09405/22]的支持。
Igor Bezerra Reis是机器学习领域的专家,拥有计算机科学硕士学位。他目前是皮奥伊联邦大学的讲师。他的研究重点是自然语言处理、计算机视觉和知识产权。