比较人工、大语言模型（LLM）和LLM-质量功能展开（QFD）方法在技术需求提取中的应用

《Proceedings of the Design Society》：Comparing human, LLM, and LLM-QFD approaches to technical requirement extraction

【字体：大中小】 时间：2026年07月03日 来源：Proceedings of the Design Society

编辑推荐：

　　本研究调查了大语言模型（LLM）如何支持从早期产品推介中提取技术需求。机械工程专业学生在三种条件下开展工作：手动、LLM辅助以及LLM结合QFD界面。两种AI辅助条件均提高了需求质量并降低了感知难度。主题分析表明，认知努力从生成需求转向评估和验证AI输出，而仅

本研究调查了大语言模型（LLM）如何支持从早期产品推介中提取技术需求。机械工程专业学生在三种条件下开展工作：手动、LLM辅助以及LLM结合QFD界面。两种AI辅助条件均提高了需求质量并降低了感知难度。主题分析表明，认知努力从生成需求转向评估和验证AI输出，而仅LLM组报告的态度最为积极。

论文解读：《Comparing human, LLM, and LLM-QFD approaches to technical requirement extraction》

研究背景与动机

在工程设计领域，将设计信息转化为工程规范一直是工程师和产品开发人员面临的重大挑战。收集用户需求并将其转化为精确的需求和规范既耗时又至关重要，此过程中的任何偏差都会显著影响最终产品的成功。根据NASA的定义，技术需求是将利益相关者期望转化为定义设计解决方案需求的独特、定量且可测量的陈述，通常以“应（shall）”语句表达。为了有效实现这一转化，业界开发了多种结构化方法和工具，其中质量功能展开（QFD）是一种成熟的方法，其核心是质量屋（HoQ）矩阵工具，用于将客户需求（“什么”）与工程特性（“如何”）关联起来，确保产品设计满足用户期望。近年来，研究人员开始探索将人工智能（AI）和大语言模型（LLM）集成到QFD过程中，以简化需求提取、增强创造力和支持决策。然而，传统方法在将客户需求转化为工程需求时仍然耗时、主观，并且工程学生难以有效掌握。从概念产品推介到全面可行的技术规范的转化过程中，常常存在语义鸿沟、缺失依赖和不一致的解释，威胁项目可行性。尽管QFD传统上构建了这种转化，但本研究旨在调查不同级别的AI辅助——无辅助、对话式LLM支持或嵌入QFD的LLM——如何塑造新手工程师的需求引出过程。为此，研究人员提出了两个研究问题：RQ1，与不使用LLM的手动方法相比，LLM辅助如何影响工程师将产品推介转化为技术需求时的感知任务难度？RQ2，与无LLM基线相比，LLM辅助如何影响结果需求集的质量和技术的特异性？该论文发表在《Proceedings of the Design Society》。

关键技术与实验方法

研究人员开展了一项教学实验，涉及36名来自卢布尔雅那大学的工程硕士生（13人分配至无LLM组，12人至LLM组，11人至LLM-QFD组）。所有学生先前已完成设计技巧课程，掌握了从客户需求到需求规范的转化流程。实验中，学生获得一个智能宠物项圈的产品推介材料，其主要任务是从中提取至少十个功能需求，并按五点重要性量表排序。三个组分别采用：无LLM（手动提取，使用在线资源）、LLM（使用LLM辅助生成结构化需求）和LLM-QFD（将LLM集成到QFD过程中，应用HoQ原则）。任务完成后，学生填写反馈问卷，评估过程难度和满意度。研究人员采用Welch单因素方差分析（ANOVA）检验组间差异，并对开放式回答进行主题分析。此外，两名专家根据可行性、具体性等标准对需求列表进行盲法评估，指标包括整体质量、机械需求数量、技术需求数量、非技术需求数量、总数量、重要性分布和平均重要性得分。

研究结果

4.1. 统计显著差异

Welch单因素ANOVA揭示了三组在多个关键变量上的显著差异。首先，确定需求的难度存在显著组间差异（F(2, 22.1) = 6.82, p = .005）。无LLM组报告了最高难度（均值2.85），显著高于LLM-QFD组（均值1.91）。LLM组难度居中（均值2.42）。其次，需求质量也存在显著差异（F(2, 22.2) = 4.30, p = .027）。无LLM组产生的需求质量最低（均值3.38），而LLM组（均值4.33）和LLM-QFD组（均值4.45）的质量显著高于无LLM组，且两组间无显著差异。手动组常产生缺乏明确叙述的笼统陈述，而LLM组则提供了更清晰和技术聚焦的需求。第三，对AI的态度差异显著（F(2, 22.2) = 3.97, p = .034），LLM组态度最积极（均值4.33），显著高于LLM-QFD组（均值3.55）。最后，技术需求数量接近显著（F(2, 22.1) = 3.43, p = .051），LLM组生成了最多的技术需求（均值9.67），显著多于无LLM组（均值7.15）。总体满意度在各组间无显著差异。这些结果回答了RQ1和RQ2：AI辅助条件降低了感知难度，并提高了需求质量和技术的特异性。

4.2. 参与者体验的主题分析

研究人员对开放式回答进行了主题分析，识别出四个挑战主题和三个积极体验主题。无LLM组报告了高认知需求（100%）和时间压力，主要挑战在于独立生成需求；LLM组认知需求降低（58.3%），但面临新的交互复杂性（66.7%），如提示词制定和输出验证；LLM-QFD组的挑战转向信任和数据可靠性（63.6%）以及技术集成问题（72.7%）。在积极体验方面，无LLM组重视创造性思维和自主学习；LLM组强调效率增益（66.7%）和结构化推理；LLM-QFD组突出了速度、自动化（81.8%）以及对AI可靠性的批判性反思。总体而言，随着AI参与度的增加，参与者的焦点从创造性解决问题转向管理和评估AI性能，反映了人-AI合作形式的演变。

讨论与结论

讨论部分指出，两种AI辅助条件均比手动提取产生了更高质量的需求列表并降低了感知难度。LLM组生成了最多的技术需求并表达了对AI最积极的态度，而混合LLM-QFD条件虽然质量相似，但态度更为矛盾。这与前人研究发现一致，即AI工具能提高成绩和满意度。主题分析表明，AI将认知负担从生成和组织需求转移到了解释和验证AI输出上。手动参与者报告高脑力消耗和时间压力，而AI辅助参与者虽看重效率和结构化思维，但也面临提示制定、界面复杂性和信任等新挑战。LLM-QFD混合条件未显示出明显优势，可能是因为使用结构化工具增加了操作摩擦，如文件上传、矩阵导航和输出验证等额外步骤，抵消了其潜在益处。研究还指出，由于参与者是学生而非专业需求工程师，LLM可能弥补了领域知识和词汇的不足，而非真正增强专家级推理。研究局限性包括样本量小、单一大学来源、单一产品推介、通用LLM未经微调、专家判断评估而非客观指标等。未来研究应扩大样本、探索不同领域和LLM配置，并设计平衡指导与用户控制的界面。

结论部分的翻译如下：

本研究考察了不同形式的AI辅助如何影响从早期产品推介中提取技术需求。在三种条件下——手动提取、LLM辅助和LLM-QFD混合——AI辅助始终降低了感知任务难度，并支持了更完整和技术特定需求集的生成。这些发现表明，LLM可以作为新手工程师的有效脚手架，帮助他们表达更结构化和可操作的需求。除了性能结果外，该研究还揭示了AI如何改变任务的认知特征：从无辅助条件下的个人构思，到与LLM的协作意义构建，再到LLM-QFD配置下的系统级监督。这种转变对工程教育具有实际意义，即当AI工具以保持用户代理和鼓励批判性验证的方式集成时，可能最为有益。总体而言，结果突显了AI辅助需求提取的潜力和局限性。虽然LLM可以提高质量并减少工作量，但像QFD引导提示这样的结构化混合会引入额外的操作步骤，必须仔细设计以避免摩擦。因此，未来的工作应该用经验丰富的从业者、更广泛的设计问题和领域适应模型来检查这些方法，以评估当用户已经具备成熟的需求工程专业知识时，AI支持的功能如何。

热点排行