基于结构的相似性搜索以提升工厂工程中装配体与功能单元的复用——以大语言模型（LLM）为搜索工具的用例与实现验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Proceedings of the Design Society》：Structure-based similarity searches to improve the reuse of assemblies and functional units in plant engineering – use cases and implementation verification with a large language model as a search tool

【字体：大中小】 时间：2026年07月03日 来源：Proceedings of the Design Society

编辑推荐：

　　在工厂工程（plant engineering）与工业解决方案业务中，核心在于开发客户定制化产品。与此同时，从既往项目中寻找合适的模板（适应性设计，adaptation design）对于高效产品开发至关重要。产品数据管理/企业资源规划（PDM/ERP）系统中

在工厂工程（plant engineering）与工业解决方案业务中，核心在于开发客户定制化产品。与此同时，从既往项目中寻找合适的模板（适应性设计，adaptation design）对于高效产品开发至关重要。产品数据管理/企业资源规划（PDM/ERP）系统中的传统搜索工具并不适用于该目的，因此前期研究中提出了基于结构的相似性搜索（structure-based similarity search）方法。本研究开展了一项可行性研究，以识别典型用例，并验证以大语言模型（LLM）作为搜索工具时，这些用例是否能够被中小型企业（SME）简便地实现。

工厂工程与工业解决方案业务的核心在于开发客户定制化产品。为提升产品开发效率，设计人员通常不会从零开始设计所有零部件，而是尽可能复用既往项目中的现有装配体（assemblies），或直接重复利用，或以其为模板进行适应性设计（adaptation design，即以既有装配体为基础进行调整和复用的设计方式）。然而，该领域在实践中面临两大难题。其一，相较于批量生产和消费品的开发，工厂工程属于高度动态的过程，项目特定要求与约束众多，使得传统的变型设计、分类、模块化和配置方法在经济层面仅有限适用。其二，现有产品数据管理/企业资源规划（PDM/ERP，Product Data Management / Enterprise Resource Planning）系统中的搜索工具通常仅查询单个元素的元数据，无法考虑元素之间的结构关系。因此，亟需支持基于结构的相似性搜索（structure-based similarity search，即不仅依据单个元素属性，还依据其在产品结构中与其他元素关联关系进行相似性判断的搜索方式）工具，以促进适应性设计的实施。

本研究发表于《Proceedings of the Design Society》。研究人员采用软件开发中的“螺旋模型”（spiral model）开展可行性研究，覆盖从初始需求概念到首版原型及其评估的第一循环，包括目标设定与边界条件、风险与替代方案分析、中间产品开发和测试，以及下一轮迭代规划四个步骤。研究以ChatGPT 5.0的GPT-5 mini模型为工具，将示例装配体以CSV运行时对象形式输入模型，并针对不同用例以自然语言提出问题，以验证大语言模型（LLM，Large Language Model，基于神经网络架构、可处理自然语言的大规模预训练模型）在不进行上游训练或企业特定适配情况下的可行性。

研究所用的关键技术方法可概括如下：方法上遵循螺旋模型推进，依次完成用例梳理、现有技术分析、原型验证与流程概念推导；技术实现上直接采用通用大语言模型ChatGPT 5.0（GPT-5 mini），将装配体产品结构以CSV运行时对象形式输入模型，通过自然语言查询直接评估模型对结构搜索用例的解决能力，未进行模型微调或企业数据训练；核心验证目标在于判断LLM是否能够在原则上实现适应性设计中的结构搜索用例。

研究识别并验证了四类典型用例，并得出相应结论。

a）复杂何处使用清单（Complex where-used list）。该用例要求在多个零件之间存在关联约束，例如同时包含“泵”和“阀”的装配体。研究人员将虚构装配体A、B、C的零部件清单以CSV形式输入LLM，发现模型可一步回答此类跨结构查询，并支持AND、OR、NOT等逻辑运算。而传统PDM/ERP关系数据库方法在面对多级结构和特征变体时，往往需要大量手动处理或提前建立索引。

b）装配体自动分类（Automatic classification of assemblies）。该用例要求根据材料、功能等属性对装配体自动归类。研究人员要求LLM将示例装配体按“结构钢”和“不锈钢”、“机械”和“电气”进行分类，结果显示模型大体可完成语义层面的通用术语抽象。然而，对于企业特定缩写或拼写变体（如将“A2K”误判为不锈钢），模型可能出现分类错误，因此实际应用中必须提供企业级定义和用户监督机制。

c）搜索结果优先级排序与建议（Prioritized search result lists and suggestions）。该用例要求根据相似性对候选装配体进行排序，例如查找包含约0.45 m管道的装配体。研究发现，针对长度、质量等定量特征，LLM能够给出正确排序；但基于定性数据（如耐腐蚀性）的相似度排序需要更多训练数据以及企业自定义的特征组合规则，否则难以形成有效的相似性度量。

d）系统自动集成（Automatic system integration）。该用例要求在考虑相邻元素约束的基础上筛选或推荐可集成的装配体。研究人员以装配体E（管路适配器）为例，要求模型判断其可与哪些现有装配体连接，约束条件包括法兰与泵必须来自同一制造商，且适配器最大系统压力不得被泵单元超过。结果显示，LLM能够正确识别装配体C为唯一可行选项，并正确解释“bar”为压力单位、将装配体E理解为“适配器”。但研究人员也指出，部分组合可能是模型基于语义“猜测”得出的，未必在零部件层面具有实际相关性，因此需通过企业特定训练或预定义的可允许特征组合来约束。

综合上述结果，研究确认LLM能够立即实现通用用例，即“查找搜索标准跨越被搜索结构所引用多个实体的所有装配体”，无需预先建立索引或大量手动搜索。这一优势使其在适应性设计中具有较高应用潜力。但其局限同样明显：在分类任务中，特定拼写和领域缩写识别不足；在定性特征的相似度排序中，可靠性受限；在系统集成中，可能出现语义上合理但工程上不相关的“猜测”。因此，目标假设——即利用LLM可简便实现基于结构的相似性搜索——在总体上得到确认，但后续仍需开展不同模型行为对比、可复现性统计验证以及更多用例的系统研究。

研究进一步提出了面向适应性设计的信息检索流程概念。该流程将数据准备与适应性设计步骤相耦合，包括四个环节：首先，根据过往项目反馈确定未来搜索所需的属性范围；其次，定义待搜索的产品结构类型，如零部件结构、功能结构、需求结构、CAD结构、文档结构及其关联；再次，导入适应性设计过程中替换和修改操作所涉及的约束条件，以支持结果优先级排序；最后，评估搜索反馈以指导下一次迭代。研究人员强调，搜索功能的用户界面不应局限于聊天机器人，因为聊天式交互对于精确的专家搜索而言信息冗余过大，未来应集成到具备预定义导航和结构化结果展示的图形用户界面（GUI）中。此外，还需明确业务对象类型，避免LLM对语义的理解脱离工程语境，例如“50 μm”可能分别对应客户需求、CAD尺寸或调试参数，必须通过业务对象类型加以限定。

研究结论指出，除三维几何搜索和孤立的商业智能工具外，基于结构的相似性搜索在产品开发及其核心结构（需求、功能、物料）中的应用尚未得到充分利用。本研究表明，以大语言模型作为搜索工具可简便实现适应性设计中的关键用例，从而增强PDM/ERP数据的信息检索能力，有望显著提升工厂工程及客户定制化工业解决方案的开发效率。未来研究还需评估更大规模数据集对搜索性能和可用性的影响、级联结构解析深度与命中特异性之间的权衡，以及LLM查询的能源消耗等问题。

联系信箱：

粤ICP备09063491号

热点排行