大型语言模型能否理解工程设计专利？一项探索性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Proceedings of the Design Society》：Can large language models understand engineering design patents? An exploratory study

【字体：大中小】 时间：2026年07月03日 来源：Proceedings of the Design Society

编辑推荐：

　　专利蕴含宝贵的设计见解，然而手动分析仍然耗时且复杂。本研究探索大型语言模型（LLM）在自动化工程设计专利分析方面的能力。研究人员使用三份专利，从动机（Motivation）、新颖性（Novelty）和关键发明特征（Key Invention Features）

专利蕴含宝贵的设计见解，然而手动分析仍然耗时且复杂。本研究探索大型语言模型（LLM）在自动化工程设计专利分析方面的能力。研究人员使用三份专利，从动机（Motivation）、新颖性（Novelty）和关键发明特征（Key Invention Features）三个方面评估了GPT-5和Gemini 2.5 Pro，并由专家评估者通过准确性&保真度（Accuracy & Fidelity）、全面性（Comprehensiveness）和分析深度（Analytical Depth）来评估输出结果。结果表明，大型语言模型在特征综合方面表现出熟练性，但在动机分析中表现出推理局限性，这突显了人类监督的必要性。

**大型语言模型在工程设计专利分析中的能力探索：研究背景、方法与结论解读**

**一、研究背景与问题提出**

知识产权（IP），尤其是专利，构成了现代企业无形资产组合的重要组成部分。世界知识产权组织（WIPO）估计，全球90-95%的技术创新记录在专利数据库中。专利文件包含了其他来源无法获取的广泛技术信息，使其成为学术研究和工业应用的宝贵资源。专利分析能为组织提供多种战略优势，包括识别技术趋势、预测发展轨迹以及降低侵权风险。然而，专利申请量的持续增长增加了分析的复杂性，同时加剧了知识产权纠纷，突显了在设计过程中增强现有技术认知的迫切需求。

尽管专利至关重要，但设计师未能充分将专利分析整合到其产品开发流程中。这主要源于专利由法律专业人士使用专业术语撰写，使其难以理解且耗时。因此，在工程设计背景下，专利分析仍然是一个重要的研究领域。专利文献的庞大体量和持续增长使得大规模手动分析变得不切实际。关键的设计信息通常分散在摘要、背景信息、详细描述和权利要求书中，需要耗费大量资源进行解释才能构建全面的技术理解。

近年来，人工智能（AI），特别是大型语言模型（LLM）的进展，为这些长期存在的挑战提供了有前景的解决方案。生成式预训练变换器（GPT）系列模型在处理、理解和生成复杂人类语言方面展现出卓越能力，在各种基准测试中达到与人类专家相当的性能。其在复杂文本关系的语义理解和分析方面的能力，推动了从医学研究到法律案例分析等专业领域的快速采用。在工程设计领域，LLM已在数据分析、概念生成和设计评估中展现出价值。

大型语言模型正日益改变与专利相关的工作流程，通过自动化文件起草、增强搜索能力和优化知识产权专业人员的分析流程。随着LLM系统被嵌入设计和创新过程，问题不再是它们能否处理技术文档，而是它们能在多大程度上深入理解和解读设计意图。理解这种能力对于将LLM整合到设计推理和创新战略中至关重要。因此，本研究旨在对商用LLM在工程设计专利文件理解和分析方面的能力进行探索性调查，重点聚焦于三个设计方面：动机、新颖性和关键发明特征。

**二、研究方法概述**

本研究采用的方法论核心是LLM生成的专利分析与专家评估之间的比较分析。为确保分析条件一致，专利文件被下载并本地存储，为专家和LLM提供标准化访问。研究人员开发了专利分析示例，以保持专家和LLM输出之间的一致性，并根据应用场景调整格式：人类专家使用电子表格格式，LLM处理使用JSON结构。为最小化潜在偏差并保持分析可行性，研究人员选择了涵盖不同工程设计应用的三项已授权美国专利，代表从主要机械系统到复杂机电产品的频谱：咖啡豆研磨/定量装置、烤面包机和无叶片风扇组件。专家评估由两位拥有超过十年经验、专精于工程设计和专利分析的工程设计师进行。他们首先独立分析选定的专利，然后在三个设计方面生成个体评估，随后采用共识构建方法，通过结构化讨论来调和差异，并为每项专利建立一致同意的结果。

LLM分析协议与专家协议并行。完整的专利文档以PDF格式提供给LLM，以确保LLM不依赖内部先验知识或网络搜索幻觉。为减轻模型特定偏差，采用了两种最先进的LLM：OpenAI的GPT-5和Google的Gemini 2.5 Pro。为保持响应一致性，LLM通过具有JSON输出约束的结构化提示进行引导。该提示包括解构专利“动机”、“新颖性”和“关键发明特征”的具体说明。LLM生成的JSON输出被手动处理并转换为电子表格格式，以便与专家分析进行系统比较。专家报告每项专利的完整手动解构和共识构建平均需要30-45分钟，而LLM在每份文档15秒内生成结构化JSON输出，假设保持人工验证，这代表了超过90%的潜在时间节省。由相同的两位专家对所有三项专利的调和专家结果与LLM响应进行了交叉比较。评估采用了应用于三个分析方面的五级量表，并为每个设计方面制定了标准化指标。评估框架为每个分析方面纳入了三个评估指标：准确性&保真度、全面性和分析深度。

**三、研究结果分析**

**（一）总体性能表现**
对GPT-5和Gemini 2.5 Pro在所有三项专利中的比较评估结果显示，两种模型在专利分析任务上都表现出显著的能力，其性能模式显示出相对于专家基准的独特优势和局限性。

**（二）技术特征识别能力突出**
两种模型在技术特征识别方面都取得了卓越的性能，在所检查的每项专利的所有分析指标上都获得了满分。这包括概念上复杂的无叶片风扇专利，表明其在准确识别和综合构成专利发明的完整特征集方面具有稳健的能力。模型在解释权利要求元素之间的结构和功能关系方面表现出特别的优势，产生了集成的系统描述，而不仅仅是列出独立权利要求中所述的组件部分。

**（三）分析深度接近完美**
分析深度方面持续获得接近完美的分数，表明模型执行的是复杂的信息综合，而非简单的文本提取或关键词匹配。这种性能暗示了LLM的技术推理能力接近对发明原理的真正理解。

**（四）动机分析存在显著局限**
观察到的最显著的性能变化是在动机识别方面，两种模型，特别是GPT-5，获得了明显较低的准确性&保真度分数。GPT-5在咖啡研磨机和无叶片风扇专利上均得2分，而Gemini 2.5 Pro获得了稍高的分数。这种模式表明了几种可能的现象：幻觉（模型生成看似合理但无根据的内容）、从解决方案向后推理以推断动机的推理推理，或者更广泛地说，超越专利文件中明确陈述事实的扩展思维。确切的机制尚不清楚，尽管与源材料的一致偏离表明，这些模型可能用生成的内容补充了已记录的信息，这些内容虽然可能合乎逻辑，但当偏离发明人实际陈述的目的时，会损害事实保真度。

**（五）跨专利性能一致性及细微差异**
LLM的性能在不同概念复杂性的专利之间基本保持一致。代表技术最具挑战性的无叶片风扇专利，其得分与较简单的专利相当。然而，在无叶片风扇的新颖性分析中观察到了细微的性能下降，准确性&保真度和全面性分数分别降至4分和3分。这表明，概念复杂性的增加可能导致模型捕捉到主要的发明概念，同时可能忽略人类专家识别的次要或更细微的技术细节。

**（六）模型间系统性差异**
虽然两种模型都达到了最先进的性能水平，但它们的分析方法出现了系统性差异。Gemini 2.5 Pro在忠于源文档方面持续表现出优越性，在多个评估标准上获得了更高的准确性&保真度分数。相反，两种模型在分析深度能力上表现相当，表明这代表了当前大型语言模型架构中一项成熟的胜任力。

**四、讨论与结论**

评估结果表明，当代LLM在工程设计专利分析方面表现出显著的能力，特别是在技术特征识别和分析综合方面。在阐明新颖性和解释关键发明特征之间相互关系方面持续的高性能表明，这些模型超越了基本的文本处理，转向对专利设计的功能性理解。这种能力暗示了工程设计实践中的潜在范式转变，即LLM可以作为分析伙伴，而不仅仅是搜索或总结工具。这种分析能力可以显著加速关键的设计活动，如竞争对手分析、技术全景描绘和领域知识获取。

然而，在动机分析中观察到的性能下降代表了本研究最重要的发现，揭示了当前LLM专利理解方法的一个基本局限性。这些错误暗示了一种称为“推理捏造”的故障模式，即模型优先考虑逻辑叙事而非严格的源材料基础。这种弱点可能并非源于能力不足，而是源于模型在面对模糊或记录稀疏信息时的默认操作模式。专利背景和摘要部分（通常从中推导动机）通常是专利文档中最非结构化的部分。当面对不完整信息时，LLM似乎采用从已记录的解决方案向后推理的方式来推断可能的动机。这种行为展示了复杂的认知处理，但根本上损害了严格专利分析所必需的事实保真度。这种倾向表明，当前的LLM架构优先考虑叙事连贯性和逻辑一致性，而非严格遵守源材料。这种操作特性对LLM在需要高度事实基础的领域中的部署构成了关键挑战，因为输出可能看起来合理且推理充分，但包含未经证实的内容，需要人工验证。

作为一项探索性调查，本研究存在一些局限性。三项专利的样本量虽然能够进行详细的定量分析，但无法就LLM在整个工程设计领域的性能得出具有统计显著性的结论。此外，由两人组成的专家小组代表了一个有限的基准，将法律专业知识与工程视角结合可以加强评估框架。当前的评估使用了专家指定的李克特量表，建议未来的研究应整合计算度量，如语义相似性或通过特定权利要求引用的自动基础检查，以提供更细粒度的准确性指标。

研究结论指出，本研究对最先进的大型语言模型在工程设计专利分析方面的能力进行了探索性调查。评估框架通过比较专家分析和LLM性能，考察了理解专利发明的三个关键方面：动机、新颖性和关键发明特征，评估指标包括准确性&保真度、全面性和分析深度。结果揭示了LLM在该领域操作逻辑的一个基本见解：它们不是作为被动的文本提取器，而是作为主动的分析综合器。这通过它们在解构专利技术新颖性和解释其权利要求内复杂关系方面的卓越能力得到证明，这种能力指向了对发明原理的真正理解。本研究解决了LLM在专利信息学中普遍存在的法律应用与工程设计者的概念需求之间的脱节问题。

然而，在动机分析中出现了一个关键限制，模型表现出倾向于推理而非提取，生成看似合理但可能不准确的内容。这种行为表明，当前的LLM架构优先考虑叙事连贯性而非严格的文本保真度，因此需要人类监督以确保分析严谨性和源文档基础。未来的研究应通过更大、更多样化的专利数据集和扩大的专家小组来解决已识别的局限性，以获得统计显著性。人机协作工作流程的整合代表了一个有前景的方向，既能利用LLM的分析能力，又能保持工程设计应用所必需的事实严谨性。

联系信箱：

粤ICP备09063491号

热点排行