《Proceedings of the Design Society》:Multi-agent generative AI for concept evaluation: consistency, knowledge integration and human alignment
编辑推荐:
早期概念评估对于筛选可行设计至关重要。本研究提出了一种面向概念评估的多智能体生成式人工智能(Generative Artificial Intelligence, AI)框架,并在四种配置下对评估效果进行了考察:具备检索增强生成(Retrieval-Augme
早期概念评估对于筛选可行设计至关重要。本研究提出了一种面向概念评估的多智能体生成式人工智能(Generative Artificial Intelligence, AI)框架,并在四种配置下对评估效果进行了考察:具备检索增强生成(Retrieval-Augmented Generation, RAG)知识的AI、无外部知识的AI、人类专家小组,以及人机混合(Hybrid)方法。研究结果表明,AI评估小组倾向于产生均一的评估模式;检索增强知识的引入虽会改变评分行为,但并未使AI评分更接近人类判断。在所比较的四种配置中,人机混合配置与人类判断的对齐程度最高,说明AI在与专家解释相结合时效果最佳。
研究背景与问题
化工与过程工程设计早期阶段决定了新兴方案概念在技术与工程实践层面的可行性。该阶段通常会产生多个候选设计,并需要依据实用性、技术可行性与环境可持续性等多个准则对其进行筛选。传统的评估方法主要依赖由不同工程领域专家组成的专家小组,通过人工判断完成评价。这种方法能够提供丰富的实践经验,但也存在耗时耗力、主观性偏差、学科视角差异以及个体知识局限等问题,尤其当早期概念信息有限且决策标准相互冲突时,这些缺陷更加明显。近年来,随着生成式AI,尤其是OpenAI开发的生成式预训练变换器(Generative Pre-trained Transformer, GPT)等大型语言模型(Large Language Model, LLM)的发展,为辅助早期设计评估提供了新途径。然而,基于AI的评估在结果可靠性、稳定性以及与人类专家判断的一致性方面仍存在疑问。为回应上述问题,研究人员提出了一个多智能体生成式AI框架,使其作为虚拟专家小组参与早期方案评估。该研究并不试图消除人类判断的主观性,而是聚焦于评估一致性、检索增强知识的影响以及AI评估与人类专家判断的对齐程度。该论文发表于《Proceedings of the Design Society》。
主要技术方法
本研究采用当时最新的OpenAI模型GPT-5.1(2025年11月可用版本)构建多智能体生成评估框架。该框架分两个阶段:第一阶段由分别代表过程工程、机械工程与环境工程的三名角色化智能体独立对候选概念进行1至5分的五分制Likert评分,评分维度为实用性、技术可行性与环境可持续性;在RAG条件下,智能体可调取与膜蒸馏(Membrane Distillation, MD)案例相关的开放工程文档作为外部知识。第二阶段为协同推理回合,三名智能体基于首轮评分开展交叉审查与综合讨论,形成最终的小组共识评分。对照设置包括有RAG的多智能体AI、无RAG的多智能体AI、人类专家小组以及由人类专家基于AI+RAG结果进行修正的人机混合配置。为检验稳定性,每个AI配置独立运行三次。一致性通过加权Cohen's Kappa与Fleiss' Kappa衡量,RAG影响通过组共识评分的均值与标准差评估,与人类判断的对齐程度则通过Spearman秩相关系数和平均绝对误差(Mean Absolute Error, MAE)量化。案例研究选用了液态隙膜蒸馏(Liquid Gap Membrane Distillation, LGMD)系统,评估三组用于改善其热效率、流动分布和膜性能的解决方案概念。
研究结果
在“4.1 评估一致性(RQ1)”部分,研究人员比较了三种评估维度下不同配置的一致性水平。实用性方面,有RAG的AI配置呈现负值Kappa,无RAG配置和人机混合配置由于缺乏评分变异而导致配对一致性系数无法定义,人类专家配置则呈现轻微一致性,说明人类判断存在更大差异。技术可行性方面,各配置一致性相对更高:有RAG和无RAG的AI配置达到轻微至尚可一致,人类专家配置达到中等一致,人机混合配置接近尚可一致,表明可行性判断在领域内具有较明确共识。环境可持续性方面,一致性进一步降低,人类和人机混合配置甚至低于随机水平,反映出可持续性评估的多维性与复杂性使不同背景评估者更易产生分歧。总体来看,AI评估小组往往给出高度均一的评分,但这种均一性并不一定对应统计上可测量的高水平一致性。
在“4.2 检索增强知识的影响(RQ2)”部分,研究人员通过对比有RAG与无RAG配置的组共识分数,分析外部知识对评分行为的影响。实用性方面,无RAG配置对各概念给出相同的均值评分,而有RAG配置均值略有提高且变异仍较低,显示检索知识小幅提升了实用性评分但未造成不稳定。技术可行性方面,无RAG配置均值略高但跨概念变异更大,有RAG配置均值略低但变异更小,说明RAG增强了可行性评估的稳定性。环境可持续性方面,两种配置的均值接近,有RAG配置的变异略低,表明RAG主要在于提升评分一致性,而非显著改变整体评分水平。研究人员由此指出,检索增强知识对评分行为具有调节作用,但并不必然增强评估结果向人类判断的靠拢。
在“4.3 AI、人类专家与人机混合配置的对比表现(RQ3)”部分,研究人员采用Spearman秩相关和MAE比较各配置与人类专家评分的接近程度。无RAG的AI配置与人类专家保持中等正相关,但MAE较高,提示二者存在一定相似性但数值偏差较大。有RAG的AI配置则出现负相关且MAE最大,说明提供更充分的领域知识反而未能使其更像人类专家。人机混合配置同时具有最高的相关性和最低的MAE,与人类专家判断最为接近。由此可知,将AI辅助评估与人类专家解释相结合,是四种方案中最能反映人类专家判断的路径。
讨论与结论
在讨论部分,研究人员强调该框架的价值在于结构化早期筛选评估、提升评估过程的透明度与多视角整合能力,而非取代人类专家判断。专家之间的评分差异不能被简单视为缺陷,而可能反映早期阶段的不确定性、潜在风险以及隐性经验知识。人机混合配置有助于在AI提供的结构化知识与人类专家的情境理解之间形成更稳健的协商机制。研究也承认存在局限:仅评估了三个解决方案概念,统计稳健性有限,秩相关分析的可推广性受到样本量约束;RAG效果高度依赖检索文档的相关性与覆盖范围;当前框架采用简化的共识机制,仅涵盖实用性、技术可行性与可持续性三个维度,未纳入经济性、组织性或战略性因素。该框架在模型选择上具有通用性,未来可扩展至更大规模的概念集、更丰富的领域知识库以及更复杂的人机协作形式。
综上所述,该研究考察了多智能体生成式AI框架在早期概念评估中的一致性、检索增强知识的影响以及与人类专家判断的对齐程度。研究发现,AI评估小组倾向于产生均一的评估模式,且统计一致性随评价准则不同而变化;引入检索增强知识会改变评分行为,但未能使AI评分显著更接近人类判断;人机混合配置在所有配置中与人类专家判断的对齐程度最高。因此,尽管AI可以辅助早期设计评估,人类专家的参与仍然不可或缺。该框架为结构化、知识支持的早期评估提供了实践基础,未来可通过扩展测试案例与更全面的知识整合进一步提升其有效性。