《Proceedings of the Design Society》:AI applications in requirements engineering: a systematic mapping study
编辑推荐:
人工智能(AI)对需求工程(RE)产生影响,但目前尚不清楚哪些活动能够从中受益以及如何受益。本系统性文献综述回顾了过去五年内的15项研究,采用已建立的需求工程框架对人工智能方法进行分类。当前研究集中于操作性任务:需求确定、分析、整合和可追溯性管理。约三分之二的
人工智能(AI)对需求工程(RE)产生影响,但目前尚不清楚哪些活动能够从中受益以及如何受益。本系统性文献综述回顾了过去五年内的15项研究,采用已建立的需求工程框架对人工智能方法进行分类。当前研究集中于操作性任务:需求确定、分析、整合和可追溯性管理。约三分之二的研究针对单一活动而非集成解决方案。知识获取等早期阶段任务尽管在实践中有核心地位,却鲜有获得人工智能支持。该映射研究明确了现有人工智能支持的范围以及未来工作的空白。
## 一、研究背景与问题提出
现代产品开发由于新兴技术、软件内容增加以及互联产品生态系统的涌现而变得日益复杂,加之全球竞争加剧,汽车行业尤为突出。产品开发早期阶段对最终产品影响显著,此阶段决策将波及后续所有流程。需求工程在该阶段扮演核心角色,需求构成产品开发的基础并贯穿整个开发过程。为应对这种复杂性,系统工程(SE)提供了一种结构化方法论,通过系统分解以及对需求和交互的系统化考量使系统变得可管理。然而,在汽车行业等复杂领域,管理数以千计的相互依赖需求仍然资源密集,分类、一致性检查和可追溯性管理需要大量投入。人工智能为支持需求工程师完成这些任务提供了广阔前景。
一款中端汽车已包含约50,000条机械需求和法规要求,而在电子电气和软件领域,需求数量可能高达450,000条。这些需求的管理和追踪通常是手工程序,既耗时又容易出错。近期人工智能的进步,特别是计算能力和数据可用性的提升,催生了复杂的自然语言处理能力。大语言模型(LLM)在该语境中具有相关性,因其能够理解语义关系并支持需求获取、分类和可追溯性分析等核心需求工程活动。
尽管人工智能在需求工程中的应用日益受到关注,当前研究仍分散于不同的需求工程任务和领域。虽然个别研究展示了人工智能在特定活动(如需求分类或相似性检测)中的潜力,但尚未有系统性综述将人工智能应用映射到已建立的需求工程活动框架。这种系统性分类的缺失使得识别哪些需求工程活动已获当前人工智能方法充分支持、哪些仍有待开发变得困难,阻碍了需求工程人工智能支持的战略性发展。本研究通过系统性分析当前需求工程中的人工智能应用并将其映射到已建立的需求工程框架,填补了这一空白。研究发现明确了人工智能支持之所在与所需,有助于指导需求工程人工智能工具的未来发展方向。
## 二、研究设计与方法
本研究遵循Blessing和Chakrabarti(2009)提出的设计研究方法论(DRM),该方法论将设计研究分为四个阶段:研究澄清、描述性研究I、规范性研究和描述性研究II。本论文具体针对描述性研究I阶段,旨在通过系统性分析建立对现有情况的全面理解,为后续开发和验证阶段奠定基础。
本研究采用Xiao和Watson(2019)描述的系统文献综述(SLR)流程。该综述经历七个步骤:制定研究问题、定义检索策略、执行检索、应用筛选标准、分析选定文献、综合发现并呈现结果。为回答研究问题RQ1,研究人员首先通过系统文献综述识别相关人工智能应用,随后将其映射到Rupp(2021)的需求工程框架,该框架将需求工程活动组织为四个主要类别,包含具体活动。此映射揭示了当前哪些需求工程活动获得人工智能支持、哪些基本未被触及。对行业领域、实施状态和人工智能方法的额外分析回答RQ2,而RQ3则通过讨论部分对这些发现的综合加以探索。
检索策略方面,研究人员选择了Scopus、Web of Science和Google Scholar三个科学数据库,以涵盖既有学术出版物和该领域的新兴研究。检索字符串基于主要研究领域制定:需求工程、人工智能和系统工程。考虑到需求工程在实践中有时被称为需求管理,两个术语均被纳入。同时,人工智能及其缩写和全称的多种形式也被纳入以确保全面覆盖。经初步测试后,检索字符串还翻译为德文以捕获相关德语出版物。鉴于人工智能技术的快速发展,特别是大语言模型近年来的进展,检索限定于2020至2025年出版物以聚焦当前方法和技术。
筛选过程采用两阶段方法。英文检索在各数据库返回结果:Scopus(331篇)、Web of Science(42篇)和Google Scholar(约5,800篇)。德文检索额外获得17篇结果,均来自Google Scholar。Scopus和Web of Science的所有结果均纳入筛选,Google Scholar则取英文和德文检索的前100篇结果以聚焦最相关文献。去重后490篇出版物进入初筛。第一阶段审查所有490篇标题,149篇进入摘要筛选,后45篇进入全文评估。第二阶段对45篇进行全文审读以验证相关性,其中6篇无法获取。经严格评估,24篇因缺乏人工智能实施细节、主要关注人工智能工程方面而非需求工程支持、或未提供系统工程语境下的可迁移见解而被排除。对剩余15篇进行前向和后向引文检索,虽识别出若干额外文献,但均未满足所有纳入标准,特别是时间范围(2020-2025)和对需求工程实际人工智能应用的关注。最终数据集包含15篇出版物。
## 三、关键技术与方法
本研究用到以下主要关键技术方法:系统文献综述方法论框架;基于Rupp(2021)的需求工程活动分类框架作为分析透镜;自然语言处理(NLP)技术,包括双向编码器表征(BERT)模型和大语言模型(LLM);语义相似性计算(余弦相似度);检索增强生成(RAG)架构;主动学习(active learning)方法;命名实体识别(NER)技术;基于图的依赖分析方法(PageRank算法);少样本学习(few-shot learning)策略;提示工程(prompt engineering)技术;以及知识图谱构建方法。
## 四、研究结果
### 4.1 已识别文献概述
15篇文献涵盖多个行业领域,包括航空航天、汽车、铁路、核工程和通用系统工程。实施状态方面,部分为框架性研究(F),部分为实际应用(I)。人工智能方法呈现均衡分布:约一半基于BERT模型,另一半基于大语言模型。
### 4.2 已识别文献描述
各研究的具体贡献如下:Timperley等(2025)在航空航天领域使用ChatGPT-4从功能需求创建功能列表,并进一步生成基于模型的系统工程(MBSE)架构,发现最详细的提示带来最佳可追溯性结果。Zhang等(2024)利用多种BERT模型匹配大众车辆的使用场景与产品特性,通过余弦相似度于语义相似性识别相关需求并发现未被满足的客户需求。Jiang等(2025)在再制造背景下考察客户需求和故障特征,使用BERT模型进行基于余弦相似度的相似性计算以识别和合并语义相似但表述不同的需求。Bashir(2024)在铁路行业应用BERT从庞大的招标文件中识别需求并分配至子系统,15个正确分配的需求作为示例,真实行业数据测试显示处理时间显著减少、分配错误降低、可追溯性改善。Uygun和Momodu(2024)开发问答聊天机器人以更快更高效地从大型文档库检索信息,采用RAG架构将专业知识库中的领域特定信息增强到LLM Nous-Hermes-13B-GPTQ以改进需求分析,由于数据保护顾虑该LLM在本地运行。Schleifer等(2024)开发结构化需求框架并从中推导用例图,潜在分析显示自然语言处理支持的辅助系统可在需求分析和映射中实现效率提升,已在汽车行业专家中验证可用性但尚未用真实数据评估。Riesener等(2024)为需求管理领域的命名实体识别模型微调需要标注数据集,使用BERT进行自动分析和分类以减少超过70%的人工工作量,需求按实体、动作、属性、相对运算符和数量等类别处理。Gr??ler等(2022)提出结合自然语言处理与图方法的复杂技术系统需求变更主动管理方法,使用BERT揭示需求间语义相似性并分析依赖关系,基于PageRank算法评估变更影响和计算变更概率,已在汽车行业真实需求中测试原型。Gr??ler等(2022)还使用active-BERT识别需求依赖关系并更准确识别"Requires"、"Refines"、"Refined by"和"Required by"等依赖类型分类,强调数据的质量和数量对建立自然语言处理解决方案至关重要。Gr??ler等(2023)开发通过数据增强自动提取和分类需求的方法,将跨三个领域的规范文档需求手动分类为功能性、非功能性和不可分类,然后由LLM GPT-J生成人工需求,但真实数据与增强数据结合因领域差异反而降低了分类性能,结论认为人工生成数据在领域特定数据不足时特别有帮助。Dehn等(2023)以18个标准化步骤系统描述人工智能在需求工程过程中的可能应用,定义需求工程流程类型作为数据对象和需求工程操作应用于数据对象,组合形成18个基本过程步骤(EPS),但未描述真实应用。Van Remmen等(2023)开发指导需求管理中人工智能系统设计的框架,从文献推导自然语言处理构建模块并映射到需求工程活动,整合产品类型学和参考系统等公司特定因素提供实施建议,但仅通过学术示例演示尚未实践验证,并指出自然语言处理潜力随需求数量和复杂性增加而增长。Bourdon等(2025)针对核工程微调基于Mistral-7B-Instruct-v0.2的CurieLM模型自动化需求管理任务,使用安全标准生成规范报告并提取、分类和结构化需求,通过人机界面工程师可应用国际系统工程理事会(INCOSE)规则进行重新表述,采用人机协同方式,自上而下子系统方法进行需求分配,低模型温度时效果最佳,案例研究中提取时间减少88%、重新表述减少87%、产品分解结构减少66%。Wang等(2025)基于五种系统建模语言(SysML)需求类型(功能性、接口、性能、物理和设计约束)引入信息提取框架,非结构化需求文本经预处理后由ChatGPT-4分析,采用少样本学习提高准确性,提取数据形成知识图谱揭示需求间语义关系,用例比较中GPT-4准确率较BERT高25%、较GPT-3.5-turbo高5%。Hovemann等(2025)使用V模型为系统工程活动推荐高级提示工程技术,定义每阶段四个示例任务并实施三个用例:上下文图修正、备选系统架构开发和从需求推导测试用例,经验丰富的工程师评估显示质量高于预期,证明提示工程可以以最小努力为需求工程任务增加显著价值。
### 4.3 映射至需求工程活动
将已识别人工智能应用映射到Rupp(2021)的需求工程框架进行分析,呈现明显的特定活动集中趋势:需求确定、分析改进需求、整合需求和建立可追溯性这四个活动分别出现在至少三篇文献中。仅Bourdon等(2025)覆盖五个需求工程活动,Wang等(2025)覆盖三个活动,而三分之二的文献仅聚焦单一需求工程活动。该模式表明当前人工智能解决方案主要针对孤立的需求工程任务,而非提供跨需求工程流程的全面支持。
## 五、讨论
### 5.1 研究发现分析
按Rupp(2021)框架分类显示,当前研究明显集中于操作性需求工程活动。四个活动各有至少三篇文献涉及:需求确定(4次)、分析改进(4次)、整合(3次)和建立可追溯性(3次),这些属于"获取优质需求"和"管理需求"类别,具有重复性任务和可测量结果的特点。"确定知识"和"沟通需求"类别则几乎未被涉及。
三分之二的文献聚焦单一活动。Wang等结合分类、提取和语义表征,因为只有这种集成方法才能有效解决基于文本的需求中的歧义、结构缺失和可追溯性缺失问题——分类为精确提取提供类型学基础,知识图谱将提取元素链接为连贯语义模型,产生适合复杂技术系统的一致、机器可解读的需求表征。Bourdon等考察需求管理和系统工程的众多领域,因其旨在实现核电厂开发中整个工程流程的整体转型,GenSE项目不仅旨在自动化单个任务,还要改善包括需求获取、质量保证、架构建模、接口管理、合规性和变更影响分析在内的整个系统生命周期。这种广泛视角是必要的,因为核项目是高度复杂、严格监管且安全关键的,各学科相互影响,无法孤立优化。
### 5.2 关键发现:需求识别的空白
一个重要发现涉及需求识别:所有考察的方法均处理现有需求——从现有文档中提取、按标准重新表述或分配至类别。基于利益相关方讨论或研讨会结果创建新需求这一实际步骤未被涉及。然而,从通常非结构化的利益相关方陈述到精确技术需求的转换恰恰是需求工程的核心挑战。即使在大语言模型在其他领域展示创造性文本生成的情况下,也未用于此项任务。这可能源于所需技能的组合:专业知识、技术条件知识以及不同利益相关方视角的平衡必须在此汇聚。
### 5.3 人工智能方法分析
所用人工智能方法呈现均衡分布:一半实现基于BERT,另一半基于大语言模型。但这种均衡分布反映不同的成熟度。BERT方法自2018年起使用,在定义明确的任务上取得可靠结果,例如需求分类准确率超过90%或有效重复检测。基于大语言模型的工作似乎集中出现于2022年后,与2022年底ChatGPT的广泛可用性相关。这些模型的易获取性,无需昂贵计算基础设施,使更多研究人员能够测试。但分析显示,大语言模型主要用于提取、重新表述和分析。生成式应用,如从关键词创建用户故事、测试用例或完整需求集,在文献中未见。
汽车行业以40%的文献领先,可能由于该领域的高度复杂性。其他行业仅零星出现:核工业在监管需求管理方面、铁路行业在庞大招标文件处理方面、航空在基于模型的系统工程集成方面。医疗器械和金融等同样处理复杂需求和法规的行业在分析文献中未出现,原因无法从现有数据推断。
### 5.4 局限性与实践挑战
本研究受系统性文献综述典型 systematic literature reviews 的方法学局限。所选检索术语聚焦已确立术语,使用替代术语的文献可能未被纳入。聚焦近期发展(2020-2025)使分析最先进人工智能方法成为可能,但排除了早期开创性工作。集中英德文出版物反映需求工程的主要发表语言,但可能遗漏其他语言地区的贡献。
除技术层面外,人工智能在需求工程中的采用面临实践和伦理障碍。利益相关方信息的敏感性,如陈述的来源、意图和背景,通常包含机密商业数据,引发数据保护和知识产权担忧。在安全关键领域,必须确保产品安全不受不正确或误导性人工智能输出的损害。人机协同(human-in-the-loop)方法,即领域专家在基线化前验证和批准人工智能生成建议,对于确保问责性、可追溯性和可靠性仍然至关重要。
## 六、研究结论
本系统性文献综述考察了15篇关于需求工程中的人工智能的出版物,将其映射到Rupp的需求工程框架。当前实现集中于四项操作性活动:确定、分析、整合需求以及建立可追溯性。早期阶段工作和从利益相关方输入生成需求仍有待开发。三分之二的方法针对单一活动而非集成解决方案,聚焦于分类和可追溯性等结构化任务。这些空白,特别是在创造性和早期阶段需求工程过程中的空白,代表未来工作的机会。
该映射揭示了人工智能支持的现状与最需之处,有助于指导研究转向集成解决方案和早期阶段活动,特别是探索大语言模型如何支持利益相关方驱动的需求生成。通过减少需求创建所需时间并使利益相关方能够直接借助大语言模型辅助协作生成和精炼需求,此类方法开启了更即时反馈、加速迭代以及显著改善利益相关方意图与记录需求之间一致性的潜力。