《Proceedings of the Design Society》:Context-aware large language models for ambiguity detection in requirements
编辑推荐:
需求质量决定了工程设计,然而自然语言规范仍然容易产生歧义。研究人员调查了大型语言模型(LLMs)如何支持歧义检测,使用了一个混合数据集,该数据集结合了美国国家航空航天局(NASA)詹姆斯·韦伯太空望远镜(JWST)的需求以及系统注入的缺陷。通过使用自动提取的领
需求质量决定了工程设计,然而自然语言规范仍然容易产生歧义。研究人员调查了大型语言模型(LLMs)如何支持歧义检测,使用了一个混合数据集,该数据集结合了美国国家航空航天局(NASA)詹姆斯·韦伯太空望远镜(JWST)的需求以及系统注入的缺陷。通过使用自动提取的领域知识,研究人员比较了领域无关的基线方法与上下文感知方法。融入领域知识有助于大型语言模型更好地区分真正存在歧义的需求与可接受的需求,凸显了上下文感知人工智能助手在需求工程和早期设计阶段的潜力。
### **基于上下文感知的大语言模型进行需求歧义检测的论文解读**
#### **一、 研究背景与问题**
需求是贯穿工程系统从概念到部署全过程的基础性设计制品(Reference Pahl, Beitz, Feldhusen and GrotePahl et al., 2007),它定义了未来产品的特性,指导开发活动,并为交付系统的验证提供依据(Reference Hull, Dick and JacksonHull et al., 2005)。由于大多数需求以自然语言书写,其质量在实践中差异很大,直接影响下游的设计决策、返工和项目风险。尽管存在诸如ISO 29148(2018)和INCOSE需求编写指南(Reference Ryan and WheatcraftRyan & Wheatcraft, 2023)等标准,旨在通过避免模糊词汇、使用受控语言等最佳实践来减少歧义,但歧义问题依然普遍存在。这是因为许多歧义线索依赖于上下文,需要结合项目的术语、单位、系统架构和层次规范结构知识才能判断(Reference Berry, Kamsties, do Prado Leite and DoornBerry & Kamsties, 2004)。这种歧义直接影响设计空间的探索和收敛。
在实践中,有效的歧义评估依赖于语言线索和特定领域知识。为改进此任务,现有研究探索了使用人工智能(AI)技术自动检测工程需求数据集中的歧义。现有的自动化工具和许多新兴AI方法通常将需求视为孤立的句子,并严重依赖语言模式和“代码异味”。这些方法虽能识别潜在的歧义需求,但代价是产生大量的误报,给工程师带来沉重的筛选负担。在没有项目上下文的情况下,AI的采用反而成为障碍而非助力,并可能因提供错误支持感而最终削弱信任。
近年来,生成式人工智能(GenAI)的快速兴起为增强需求工程(RE)和设计工作带来了新机遇(Reference Arora, Grundy, Abdelrazek, Nguyen-Duc, Abrahamsson and KhomhArora et al., 2024),并有望解决现有歧义检测方法的一些局限性。大语言模型(LLMs)能够捕捉语义细微差别、句法规则和上下文线索(Reference Zadenoori, D?browski, Alhoshan, Zhao and FerrariZadenoori et al., 2025),为歧义检测提供了有前景的解决方案。然而,当前基于LLM的检测方法通常在没有系统获取项目上下文的情况下对单个需求进行操作,导致对书写良好的需求产生高误报率。关于项目特定上下文如何影响不同歧义类型检测性能的实证证据有限,且现有数据集很少结合真实需求、明确的歧义标签以及支持可控、可复现评估的领域上下文。
为填补这些空白,本研究旨在探究两个核心研究问题(RQs):
RQ1:一个领域无关的LLM,在基于标准歧义触发词提示下,检测高质量和缺陷注入需求混合数据集中的歧义时表现如何?
RQ2:用项目特定上下文增强LLM后,如何影响整体以及不同歧义机制(词汇、句法、语义、语用)下的歧义检测性能?
本研究发表在《Proceedings of the Design Society》上,其重要意义在于:1)构建了源自JWST任务需求的混合标记数据集;2)提出了一个上下文感知的歧义检测流程,该流程利用LLMs挖掘项目文档以获取上下文,并利用该上下文进行歧义检测;3)提供了实证证据,表明明确的项目上下文能显著减少误报,并阐明了基于LLM的歧义检测器在设计实践中何时可能有用。
#### **二、 主要研究方法**
研究人员采用了一种受设计科学研究启发的构建-评估流程(Reference Peffers, Tuunanen, Rothenberger and ChatterjeePeffers et al., 2007),主要包括四个步骤:
1. **构建混合标记数据集**:以NASA詹姆斯·韦伯太空望远镜(JWST)任务需求文档(2007年版本)为实证基础。该文档代表了成功部署的、价值数百万美元任务中的成熟设计制品。研究人员从中提取了246条原始高质量需求,并系统性地注入了四种歧义类型(词汇、句法、语义、语用),生成了246条对应的缺陷需求,最终形成一个包含492条需求的平衡混合数据集。
2. **提取并结构化项目上下文**:开发了一个半自动化的两步流水线,使用LLM(Claude Sonnet 4.5)从JWST任务文档中挖掘关键上下文实体(如系统元素、角色、接口、关键术语定义),并将其格式化为一个“项目上下文”块,用于插入到后续的评估提示中。所有具体数值被归一化为指示性范围,以避免下游模型进行简单的模式匹配。
3. **实现基于LLM的歧义检测**:将歧义检测建模为对单个需求的二元分类问题。检测器使用LLM(Llama-3.3-70B-versatile)实现,并通过Groq API访问。评估提示基于ISO 29148和INCOSE指南中的质量特性描述歧义,而不提及具体的四种歧义类型。研究人员比较了两种配置:**领域无关基线**(仅使用通用歧义准则)和**上下文感知配置**(在准则基础上增加了“项目上下文”块)。
4. **评估与比较检测性能**:对数据集中的每条需求,在两种配置下调用LLM,记录其是否标记为歧义。使用精确度、召回率和F1分数(Reference Manning, Raghavan and SchuetzeManning et al., 2009)评估整体性能,并按四种歧义类型进行细分分析。为确保稳健性,还使用更小规模的模型(Llama 3.1 8B)在相同设置下进行了复现评估。
#### **三、 研究结果**
**4.1 整体检测性能**
上下文感知配置将精确度从0.57提升至0.75(提升32%),召回率仅略有下降(从0.61降至0.59),从而使F1分数从0.59提升至0.66。最显著的效果是,对NASA已接受需求的误报减少了42%(从107例降至62例),直接解决了第2章中识别的过度标记问题。
**4.2 按歧义类型的性能分析**
按歧义类型细分性能揭示了更细致的模式:
* **精确度提升普遍**:上下文对所有歧义类型的精确度都有提升。
* **召回率变化不一**:召回率总体保持相似,但词汇歧义的召回率降低了19%。语义和句法歧义的召回率基本稳定。
* **F1分数提升**:所有类型的F1分数均有所提高,其中句法歧义(从0.56到0.64)和语用歧义(从0.58到0.72)的提升最为明显。
* **语用歧义改进最大**:这表明模型在结合JWST领域上下文后,能显著更好地区分哪些短语在给定上下文中是真正歧义的,这与语用歧义紧密依赖于领域知识和操作实践的直觉相符。
* **稳健性验证**:使用更小的Llama 3.1 8B模型复现评估,上下文效应依然成立:精确度从0.78提升至0.88,召回率保持稳定,F1分数从0.63提升至0.65。
#### **四、 讨论与结论**
**讨论部分**总结了三个主要发现:首先,在没有上下文的情况下应用INCOSE和ISO启发的质量特性,会导致模型成为一个过度敏感的检测器,将从业者已接受的需求标记为歧义,这反映了从业者自身也需要足够的领域知识来评估歧义。其次,用项目上下文丰富模型能显著减少误报,同时保持相近的召回率,其中对语用歧义的改进最大,因为语用歧义的判断更依赖于意图和上下文而非字面措辞。第三,基于LLM的歧义检查更适合作为嵌入到已暴露此类上下文的工作流程中的决策支持工具,而不是作为独立的自动化把关者。
研究结果对LLM在需求工程中的定位具有启示:测试的LLM配置仍然会误分类一些细微的语义和语用缺陷,但这反映了人类歧义评估中已知的挑战。因此,模型更适合被视为一种**分流工具**,用于减少需要人工关注的文本量,同时将最终决定权留给领域专家。此外,研究还提出了从被动标记转向**交互式消歧**的机遇,即当模型识别出歧义需求时,可以明确呈现不同的解读并邀请作者选择或精化需求。
**研究结论**明确指出,项目特定上下文可以显著改善基于LLM的歧义检测,将精确度提高32%,并将误报减少42%,其中对语用歧义的改进最为显著。
对于设计界而言,这些发现强调了需求存在于相互关联的制品生态系统中,而非孤立的规范。在NASA、国防或公共交通等大型组织中,设计决策分散在许多制品中。研究结果表明,基于LLM的歧义检查最有前景的应用方式是嵌入到已经暴露此类上下文的工作流程中,而不是作为对单个句子的独立评估。通过减少误报并改进对语用歧义的处理,上下文感知工具可以帮助设计团队减少在追查良性语言问题上花费的精力,而将更多精力用于审视那些歧义与系统级假设和跨学科接口紧密相关的少数需求。
最后,论文也指出了本研究的局限性:1) 使用了NASA航空航天(特别是任务)需求,可能不能完全代表汽车或医疗设备等其他领域;2) 缺陷注入过程产生的是最小化、受控的缺陷突变,可能无法捕捉自然发生缺陷的全部多样性;3) 缺陷由LLM生成,可能比其他自然缺陷更容易被其他LLM检测到;4) 上下文效应是否能在Llama系列之外的其他模型架构上迁移仍是开放问题。未来工作应在多个领域(包括使用真实世界数据集)评估该方法,并开展涉及实践工程师的人因研究,以探究LLM反馈如何影响设计讨论和工作流程。