大语言模型在工程设计中面向技术导向搜索的评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Proceedings of the Design Society》：Evaluating large language models for technology-oriented searches in engineering design

【字体：大中小】 时间：2026年07月03日 来源：Proceedings of the Design Society

编辑推荐：

　　本研究评估了各种免费可用的大型语言模型（Large Language Models，LLMs）在开展半自动化目的导向的技术搜索以支持设计活动以及用于创新管理的技术情报（Technology Intelligence）方面的功效，并以系统性人工搜索作为比较基线。

本研究评估了各种免费可用的大型语言模型（Large Language Models，LLMs）在开展半自动化目的导向的技术搜索以支持设计活动以及用于创新管理的技术情报（Technology Intelligence）方面的功效，并以系统性人工搜索作为比较基线。比较所用的案例侧重于识别适用于移动系统的水净化技术。结果表明，LLMs能够比基于人工的搜索锁定更多的技术，减少时间需求，并为额外的技术分析提供更广泛的切入点。

研究背景方面，在工程设计中，将创新性核心技术集成到功能系统中需要识别规格与新装置约束相匹配的补充组件。候选技术必须满足明确的设计要求，但理解其底层操作原理同样至关重要，这能扩展设计空间并发现仅靠规格搜索会遗漏的创新机会。本文以人道主义水处理场景为例，一种创新型光伏驱动脱盐装置在脱盐的同时回收废热，这对进水水质和出水成分提出了特定要求，设计挑战延伸至预处理和后处理技术的系统识别。此类技术景观分析面临重大挑战：相关信息分散于科学文献、专利、技术标准等多种来源；技术在不同领域使用不一致术语描述；信息量巨大使得通过传统学术索引引擎进行人工审阅耗时且可能不完整。基于大型语言模型（LLMs）的生成式人工智能工具的出现提供了潜在变革性替代方案，但其在工程设计语境中生成技术分析的可靠性、完整性和准确性在很大程度上尚未被探索。因此，研究人员使用水处理系统设计作为案例研究，对通过Scopus进行的系统性文献综述人工技术景观分析与基于LLM的生成式人工智能工具获得的结果进行了比较调查，旨在评估LLM辅助方法在支持工程设计技术分析活动中的潜力和局限性。该论文发表在《Proceedings of the Design Society》。

作者为开展研究采用了几个主要关键技术方法。首先，建立经过验证的基线：通过Scopus进行系统性人工搜索，采用迭代查询优化策略，包括初始广泛搜索、精度优化、初步审阅指导以及策略性范围缩小，最终筛选出33篇文献并提取17项技术。其次，AI辅助搜索与合成：设计标准化提示词工程策略，包括角色分配、明确任务定义、结构化输出格式、上下文与约束以及示例提供，将相同提示提交给多个免费LLMs以获取表格结果。第三，评估框架：从技术覆盖率、内容准确性（依据来源链接按0至5分评分）和来源有效性三个维度定量定性比较AI生成输出与人工基线。

研究结果部分如下。

建立基线：系统性人工搜索。研究人员通过在Scopus中开发查询并进行三阶段筛选（标题、摘要、全文），识别出17种移动水净化技术，包括氯化、沙滤、吸附、太阳能消毒、微滤、超滤、纳滤、反渗透、正渗透、膜蒸馏、电渗析、电容去离子、紫外处理、臭氧化、离子交换、电去离子和膜生物反应器。

AI生成结果与提示。研究人员选择ChatGPT、Gemini、Claude、Perplexity和DeepSeek等流行免费LLMs，使用标准化提示要求其生成所有可用于净化水以使其可饮用的技术列表，包含技术名称、优点、缺点和来源链接。LLMs生成的新技术包括混凝、絮凝、沉淀、生物处理、曝气、高级氧化工艺、填料塔曝气、多效闪蒸蒸馏、多效蒸馏、电渗析反转、膜电容去离子、电混凝、空气吹脱和生物过滤。

结果评估。技术覆盖率和新颖性方面，Claude Sonnet 4.5实现了100%的基线技术覆盖率，并新增14项新技术，其他模型覆盖率在29%至53%之间。来源可信度方面，GPT-5和DeepSeek变体产生大量错误或失效链接，而Claude和Perplexity等提供了更多权威来源。内容准确性方面，大多数模型平均得分高于4.9，Claude因提供更多技术而分数略低。

讨论与结论部分总结如下。本研究表明LLMs能够显著加速技术景观分析的初始探索阶段，快速生成全面的技术清单。Claude Sonnet 4.5表现最优，但所有模型均存在将技术集群分解为子类别的趋势，这增加了实际效用却使直接比较复杂化。这些发现对技术情报活动和设计流程具有重要意义，LLMs的快速综合能力支持关于技术兼容性和系统架构的更明智决策，且其免费可用性对工程设计教育极具价值。然而，研究存在局限性：评估的LLMs集合有限且任意；人类基线仅来自学术文献，未涵盖专利、技术标准等非学术来源；结果反映当前LLM发展水平及训练数据截止日期；幻觉风险仍需谨慎验证。研究人员强调，LLM辅助技术探索的目的并非取代人类判断，而是高效引起用户对未知或未被考虑技术的注意，作为初步发现机制。后续详细技术评估、可行性分析和战略选择仍需大量人类专业知识和控制。该方法应被视为补充性前端工具，增强而非取代工程设计中技术情报的全面多阶段过程。

联系信箱：

粤ICP备09063491号

热点排行