《Proceedings of the Design Society》:In search for working principles using large language models: an experimental study
编辑推荐:
人工智能(Artificial Intelligence, AI),尤其是大语言模型(Large Language Models, LLMs)的应用,正日益被探索用于支持系统开发的早期阶段。本研究评估了基于LLM的低门槛工具在支持概念设计方面的表现。通过一项实
人工智能(Artificial Intelligence, AI),尤其是大语言模型(Large Language Models, LLMs)的应用,正日益被探索用于支持系统开发的早期阶段。本研究评估了基于LLM的低门槛工具在支持概念设计方面的表现。通过一项实验,研究人员比较了两种基于LLM的工具,以现有机电系统功能模型作为输入来生成备选解;功能描述分别采用自然语言与功能基(Functional Basis, FB)两种形式。结果表明,LLMs在为有效且高效的概念设计提供支持方面既存在局限,也具有显著潜力。
研究背景与问题
数字化的深入发展使产品与系统设计逐步从传统机械、机电系统转向高度互联的信息物理系统(Cyber-Physical Systems, CPS)乃至社会技术系统,跨学科、跨领域的耦合日益增强,开发周期压缩,设计人员必须在更大的解空间中处理更复杂的需求,认知负荷显著增加。在此背景下,设计理论与方法论(Design Theory and Methodology, DTM)和系统工程(Systems Engineering, SE)均倡导采用功能建模将需求转化为初步设计方案:功能模型把整体输入—输出转换分解为若干子功能,帮助设计人员克服思维定式、拓展解空间,并为后续“创造性跳跃”奠定基础。Pahl et al. 提出的方法进一步主张用形态学矩阵将各功能与相应的工作原理(working principle)或方案原理相匹配,从而形成初始原理方案。然而,从功能模型到具体系统架构的生成过程仍缺乏充分的计算化支持;通用大语言模型(LLM)凭借自然语言交互能力虽然已被广泛用于早期创意活动,但能否有效支持概念设计阶段的工作原理搜索尚不明确。本研究发表于《Proceedings of the Design Society》。
研究问题
研究人员旨在回答:(1)基于LLM的工具能否支持设计人员寻找工作原理;(2)输入功能模型的形式化程度如何影响结果的变化性与准确性。
技术方法
研究以 Gericke & Eisenbart 公开提出的热熔胶枪功能模型为对象,将自然语言功能模型(FM-NL)扩展为加入内部操作数流的 FM-NL-flow 与采用功能基(FB)形式化的 FM-FB 两种变体;并以默认设置的 ChatGPT 5(Auto 模式)与 Copilot 365 在关闭记忆、启用临时聊天的条件下,通过相同三段式提示分别请求生成形态学矩阵。随后由两位功能建模与设计研究专家按形式正确性、相似重复性与无意义条目三项标准独立评估,分歧处由第一作者裁定。
研究结果
4.1 一般发现
六项实验(两种工具分别对应三种输入模型)显示,平均而言不到30%的生成结果在形式层面符合工作原理的抽象层级定义,大多数提案已处于更具体的方案原理层级,但未出现比这更具体的产品构型。无意义提案所占比例较小,且主要集中于个别功能,例如功能“引导热能”在多数输入下被LLM误给为“反射热屏蔽”“陶瓷绝缘套”等隔热策略,因而被剔除。输出描述普遍极为简短,多为两到三个词,极少超过四个词,约20%的条目需要研究人员手动补充说明才能理解。此外,虽然提示未规定列数,ChatGPT 对每个功能统一生成六、七或八条提案,而 Copilot 始终只生成三条。
4.2 对比分析
在剔除重复项与无意义条目后,ChatGPT 平均每个功能产生约两倍于 Copilot 的工作原理与方案原理,且 Copilot 的绝大多数提案都能在 ChatGPT 的结果中找到,提示二者训练数据重叠较大,差异更可能源于搜索与选择策略的不同,即 Copilot 表现出更强的选择性。就输入模型而言,FB 形式化模型在两种工具中均显著激发了更多备选提案,有效扩大了设计人员的解空间;而加入内部操作数流对结果数量的影响则不明确,ChatGPT 略有增加,Copilot 反而减少。值得注意的是,ChatGPT 搭配 FB 时还表现出更高的结果质量,无意义条目比例从自然语言模型的约12%降至6%。由于概念设计阶段的核心目标是产生大量多样化备选以供后续评选,研究人员未对单个提案的相对优劣进行评判。
讨论与结论
LLM 工具确实能够快速生成大量处于抽象层级的备选方案,契合概念设计阶段“形成可选方案集合”的目标,这是传统人工创意方法在同等时间内难以企及的。实验表明,FB 形式化的功能模型与 ChatGPT 组合表现最佳,其生成的可用工作原理与方案原理数量接近自然语言输入的两倍;而仅补充操作数流并未带来稳定的数量或质量提升。
基于上述发现,研究人员建议在面向LLM的概念设计支持中优先采用功能基(FB)对功能进行形式化,并进一步发展能够将自然语言功能描述自动转译为FB术语的专业化AI辅助工具。与此同时,当前通用LLM存在正式层级不当、输出过于简短、部分条目无意义以及可追溯性与可重复性不足等问题,研究者建议通过更细化的工作原理定义、结构化输出格式,以及将设计目录(design catalogues)等知识资源纳入训练数据来加以改进。未来还需在更广泛、多学科且更复杂的功能模型上开展系统实验,以验证结果的普适性,并借助设计方法学、领域知识与工程经验强化选择机制与结果可信度。
研究结论译文
本项研究的结果为LLM工具如何通过快速生成大量备选方案来支持设计早期阶段提供了富有前景的洞见,同时也揭示了其当前能力的局限。研究人员以机电系统(热熔胶枪)的功能模型作为复杂度适中的实例。未来仍需进一步研究,以验证结果并将其推广到多学科、更复杂的产品设计情境。