《Proceedings of the Design Society》:Discover the use of multimodal language models for idea detailing in human-AI collaborative design
编辑推荐:
研究人员提出了一种基于多模态语言模型的设计辅助框架,用于设计构思阶段。该框架利用大语言模型(LLM)解读用户通过情感板(mood board)表达的意图,为初始创意补充必要的上下文细节,并生成结构化指令供视觉语言模型(VLM)使用,以提高视觉反馈的准确性和一致
研究人员提出了一种基于多模态语言模型的设计辅助框架,用于设计构思阶段。该框架利用大语言模型(LLM)解读用户通过情感板(mood board)表达的意图,为初始创意补充必要的上下文细节,并生成结构化指令供视觉语言模型(VLM)使用,以提高视觉反馈的准确性和一致性。
研究背景与问题提出
生成式人工智能(AI)的涌现,包括大语言模型(LLM)和视觉语言模型(VLM),已对包括工程设计在内的多个领域产生了深远影响。近年来,研究人员和设计师对在设计全过程中大规模、精细化应用AI以实现人机协作设计表现出浓厚兴趣。AI系统不再仅仅作为被动工具,而是日益被期望成为积极参与设计活动的认知伙伴——提供灵感、丰富部分概念,甚至将早期构思转化为可行的原型。随着AI辅助应用在智能化和多样性方面持续进步,产品设计流程有望变得更加流畅,降低设计师的认知和操作成本。这一转变将降低参与门槛,鼓励更多参与者在AI工具辅助下加入设计过程。
然而,尽管AI工具能够加速和简化设计流程,如何有效使用这些工具以使设计师真正受益仍是一个悬而未决的问题。已有研究表明,设计师在构思过程中使用AI生成图像时,常常固守于提供的图像,导致产生的想法多样性降低、原创性下降。因此,在设计中平衡AI工具的使用至关重要。设计师需要确保将AI工具整合到工作流程中以提升效率,同时避免滥用可能损害设计创造力。此外,当前最先进的生成式AI模型在可解释性方面仍面临重大挑战,其响应往往缺乏可靠性和鲁棒性。这些模型仍然难以感知潜在的用户意图或有效解读模糊和抽象的概念。虽然精心设计的提示(prompt engineering)可以显著提高模型生成符合用户期望输出的可靠性,但作为生成式AI中的新兴技术,研究人员和设计师可能并不熟悉或不擅长提示工程。在设计层面,设计师需要仔细构建提示以指导模型,并评估响应以优化提示,才能获得预期结果。因此,开发一种能够与AI工具整合、协助设计师从零开始实施和细化想法,并在多种模态上提供反馈的工作流程将极具价值。
基于上述背景,研究人员提出了以下研究问题:如何构建多模态语言模型以支持早期设计构思的细化,同时保持设计师的控制权并提高视觉反馈的可靠性?
主要技术方法
研究人员采用以下关键技术方法开展研究:利用LLM进行设计意图感知与细节丰富化,通过情感板机制提供结构化上下文引导;设计交互式参数定制阶段,使设计师能够选择、优化或自定义视觉参数;构建结构化指令生成流程,将丰富的设计信息转化为精确的VLM提示;采用GPT-5作为核心语言模型,DALL·E 3作为图像生成模型;以随机抽样的10个初始设计想法(5个热饮容器、5个雨水收集装置)为样本开展案例研究;设置三种输入条件(原始想法、LLM丰富化指令、设计师引导指令)进行对比实验;聘请3名具有10年以上专业设计经验的专家进行7点李克特量表评估。
研究结果
情感板增强的LLM细节丰富化:研究人员发现,使用较高采样温度会增加响应变异性,降低生成细节的稳定性。因此,研究人员引入情感板机制,通过三个维度(目标用户、情感氛围、使用环境)为LLM提供结构化上下文信息。LLM首先评估设计想法并回答三个引导问题,从而获得对目标用户、应用环境和预期情感更具体的理解,进而为设计师的初始概念补充更恰当、相关且连贯的细节。
多模态语言模型精确视觉反馈生成:在LLM完成细节丰富化后,设计想法和细节被组织成结构化文本表示。研究人员进一步要求LLM将丰富的细节转化为连贯且可执行的图像生成指令,涵盖背景、应用场景、形状/形态、材料、配色方案、纹理、视角、光照和渲染类型等9个参数。为解决LLM提供的图像细节可能不符合设计师期望的问题,研究人员设计了交互式过程,使设计师能够指定或优化视觉参数。LLM为每个参数生成多个合理选项,设计师可选择、调整或输入自定义内容,最终由LLM重构为完整的图像生成指令并传递给VLM生成视觉输出。
实验设置与对比条件:研究人员组织了设计会议,招募具有不同背景(包括专业设计师和普通参与者)的参与者,围绕"设计盛装热饮的新颖产品"和"设计收集和储存雨水用于花园浇灌的产品"两个任务生成创意。从非设计专业参与者提交的构思中随机抽取10个初始想法,设置三种图像生成输入条件进行对比:(1)原始想法基线:直接将参与者提供的原始想法文本和任务描述提交给DALL·E 3;(2)LLM丰富化指令:使用GPT-5回答引导问题生成结构化分析,再整合为图像生成指令;(3)设计师引导指令:采用相同的结构化分析,但要求模型为每个参数生成5个选项供设计师审核、调整或自定义,最终重构为完整指令。
图像生成结果对比:如表2所示,原始想法直接生成的图像显示出较高变异性,包括写实和手绘草图风格;而LLM丰富化指令生成的图像表现出更高稳定性和与初始设计想法的更好一致性,且能体现预期产品功能(如热饮容器的蒸汽、雨水收集产品的沙漠环境)。如表3所示,设计师引导指令生成的图像表现出更好的一致性,能严格突出产品本身并保持主体的清晰独立呈现,遵循设计师指定的参数(如"雪景窗户场景,磨砂玻璃"背景),并保留原始想法中的细节(如"安全盖子"的锁扣结构)。
参数调整稳定性测试:研究人员对任务1的5个想法进行额外测试,调整背景参数为办公环境,其余参数主要保持不变。结果显示生成的图像保持高度稳定性,产品形态得以保留,背景更新为办公环境并添加显示器、笔记本电脑等元素强化场景。这表明设计师使用该方法可以调整特定参数而不损害产品概念图像的一致性。
专家评估结果:3名具有10年以上专业设计经验的专家采用7点李克特量表(0-6分)评估图像质量。设计师引导指令图像在"与文本想法匹配度"(Q1)平均得分为4.08分(良好),在"任务完成度"(Q2)平均得分为4.36分(良好),表明该方法能有效提高生成图像的整体质量。
讨论与结论
研究人员指出,尽管提出的框架能有效支持设计师的构思阶段,仍存在若干局限性。首先,研究依赖GPT-5扩展设计细节,虽然大部分生成内容合理且符合设计意图,但部分建议存在偏离或无关性,可能影响设计师意图并潜在限制创造力。其次,该方法对热饮设计任务的图像质量提升显著,但对雨水收集任务的改善不太明显,可能归因于雨水相关产品的系统性复杂程度更高,当前VLM难以准确捕捉设计意图并生成适当的视觉表征。最后,当前研究仍处于研究原型阶段,评估的设计想法数量有限,未来计划将该框架扩展为更系统化、可部署的工具,应用于真实设计环境中以支持持续的人机协作。
研究结论:该研究介绍了一种利用AI工具支持设计构思阶段的新颖框架。研究人员使用LLM帮助设计师丰富早期设计想法的细节,并开发了允许设计师细化和自定义想法细节的交互式系统。此外,研究人员提出了自动指令生成流程,将丰富的设计信息转化为精确的VLM提示,实现准确且连贯的视觉反馈。为评估框架有效性,研究人员收集并测试了初始产品设计想法。结果表明,所提出的方法能够产生高度可靠且一致的图像。该方法还具有良好的可扩展性,允许设计师配置和优化视觉参数以获得更预期且可控的图像表征。