基于大语言模型的非结构化文档自动设计结构矩阵提取评估:一项实证研究

《Proceedings of the Design Society》:Evaluating large language models for automated design structure matrix extraction from unstructured documents: an empirical study

【字体: 时间:2026年07月03日 来源:Proceedings of the Design Society

编辑推荐:

  设计结构矩阵(Design Structure Matrix, DSM)能够捕捉系统实体间的依赖关系并辅助分析系统复杂性,但从非结构化文档中人工构建DSM耗时费力。本研究提出了一种基于大语言模型(Large Language Model, LLM)和检索增强生

  
设计结构矩阵(Design Structure Matrix, DSM)能够捕捉系统实体间的依赖关系并辅助分析系统复杂性,但从非结构化文档中人工构建DSM耗时费力。本研究提出了一种基于大语言模型(Large Language Model, LLM)和检索增强生成(Retrieval-Augmented Generation, RAG)的自动化DSM提取框架,该框架在LLM判定两个系统实体间是否存在依赖关系之前引入了显式推理步骤。研究人员利用一个人工 curated 的数据集,在六项性能指标和成本维度上对三种LLM模型(GPT-4o-mini、GPT-3.5和GPT-4o)进行了评估。研究发现,推理长度会影响LLM的DSM提取性能。
研究背景与问题提出:设计结构矩阵(DSM)是一种N×N方阵,用于映射N个系统实体之间的关系,广泛应用于产品开发、项目管理和系统工程等领域,以可视化、分析和优化系统架构。早期构建DSM有助于识别子系统及其交互作用,实现更有结构化的分解和针对性分析。DSM还可映射为图表示形式,使其成为从文本进行系统建模的灵活高效工具。然而,DSM的创建是一个劳动密集型过程,传统方法依赖调查、结构化访谈和与工程师的会议,需要大量时间和 effort。尽管DSM具有诸多优势,但其手动构建的高成本促进了自动化方法的研究,即直接从现有技术文档生成DSM。

大语言模型(LLM)是最先进的人工智能系统,能够处理和生成类人文本,执行内容生成、问答和机器翻译等任务。鉴于这些能力,LLM为自动化DSM生成提供了有前景的途径。然而,LLM也存在局限性,包括幻觉问题、知识更新滞后以及推理过程不透明等。检索增强生成(RAG)通过将LLM与外部知识源集成,使模型能够在推理过程中动态检索相关信息,从而解决上述局限。此前,Koh(2024)提出了Auto-DSM工作流,利用现成LLM(GPT-3.5-turbo)和RAG方法从非结构化文本数据中自动化创建DSM,在柴油发动机案例研究中达到了77.3%的重叠率,但尚未探索高级提示策略或不同LLM模型的比较。

现有自动化DSM生成方法包括:Dong和Whitney(2001)从设计矩阵推导DSM;Senescu等(2012)开发自动信息依赖算法(AIDA)推断信息依赖网络;Gopsill等(2016)探索通过监测数字模型变更自动生成演进DSM;Pons等(2021)提出从SysML模型自动生成DSM的方法。自然语言处理(NLP)技术在设计系统分解和分析中的潜力也日益受到关注,但LLM在DSM创建中的整合仍相对未充分探索。

研究目标与问题:本研究的总体目标是系统评估LLM在RAG框架中自动化从非结构化技术文档中提取对称DSM实体对关系的潜力。具体包括两个目标:一是开发能够从非结构化文档中检索相关信息并生成DSM条目的框架;二是实证评估不同LLM在该框架中的性能,以理解其优势、局限性和适用性。对应两个研究问题:(RQ1)RAG增强的LLM框架在多大程度上能够可靠地从非结构化技术文档中提取对称DSM关系?(RQ2)不同闭源OpenAI GPT模型在提取性能和成本效率方面如何比较?

技术方法概述:本研究基于Koh(2024)提出的RAG增强LLM DSM提取框架,并引入关键改进。研究人员采用增强提示策略,在生成最终输出前加入显式推理步骤,使用两种提示:(a)查询扩展提示,用于提取与实体关系相关的上下文信息;(b)链式思维(Chain-of-Thought, CoT)提示,用于引导模型对DSM条目进行推理决策。实验使用九份人工合成的技术描述文档作为样本队列来源,这些文档模拟非结构化技术描述,涵盖吊扇、三轮车、冷压榨汁机等熟悉系统,每份文档包含摘要、背景、系统概述、多段落描述和结论部分,词数在700-1300之间,实体数5-13个。文档由两名专家手工标注DSM条目作为基准真值,Cohen's kappa系数为0.89,表明标注可靠性高。

实验选用三种OpenAI模型:GPT-4o(高智能旗舰模型)、GPT-4o-mini(轻量级成本优化模型)和GPT-3.5-Turbo(遗留模型,智能相对较低),温度参数设为0以确保输出确定性。评估采用七项指标:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1-score)、正确性(Correctness)、自一致性(Self-consistency)和成本。其中正确性衡量模型识别对称链接的比例,自一致性检验模型在两个方向上应用自身逻辑的均匀性,成本基于token使用量和模型定价估算。

框架工作流程包括:(1)分块与嵌入存储:将文档按150字符分块,15%重叠,使用OpenAIEmbeddings嵌入向量数据库;(2)实体关系上下文提取:通过O(n2)嵌套循环遍历所有实体对,使用基于语义相似度的检索器查询向量数据库,提取包含两实体交互信息的相关块,查询经过查询扩展处理;(3)DSM条目决策:将检索到的块作为上下文提供给LLM,结合CoT提示,使模型分析上下文并对每对实体做出二元决策(YES/NO),结果存储于CSV文件。查询扩展提示引导LLM生成多个语义等价的查询变体,增强信息检索;决策提示采用链式思维技术,引导LLM逐步推理,基于空间、能量、信息和材料四种交互类型做决策,强制约束JSON输出格式。

研究结果:

模型性能在人工整理文档上的表现:在准确率、精确率、召回率和F1分数方面,三种模型总体表现相似,仅存在少数统计显著差异。GPT-4o实现最高平均准确率(0.91,SD=0.05)和精确率(0.97,SD=0.07),GPT-3.5-Turbo最低(准确率0.83,SD=0.082;精确率0.68,SD=0.16)。GPT-4o与GPT-3.5-Turbo、GPT-4o-mini与GPT-3.5-Turbo在精确率上存在显著差异(p<0.05)。召回率和F1分数方面,模型表现相当,无统计显著差异。

在自一致性和正确性方面,GPT-4o(0.96)和GPT-4o-mini(0.95)自一致性表现最强且变异性低,GPT-3.5-Turbo较低(0.85)且方差大;正确性方面GPT-4o-mini最优(0.84),其次为GPT-4o(0.82),GPT-3.5-Turbo最低(0.706)。成本方面,GPT-4o-mini最便宜(约$0.0002/查询),GPT-3.5-Turbo次之(约$0.0005/查询),GPT-4o最贵(约$0.0032/查询)。

完成token与性能指标的相关性:各模型间平均完成token数存在统计显著差异(p<0.01)。相关分析显示,平均完成token与准确率(r=0.43)、自一致性(r=0.68)呈中等正相关,与精确率正相关性最强(r=0.71),与正确性弱正相关(r=0.29),与F1分数相关性最低(r=0.10)。召回率呈弱负相关(r=-0.24),表明输出越长模型可能遗漏部分相关链接。

讨论:实验结果证明了所提出框架利用LLM从非结构化文档中提取DSM的有效性。三种模型均能可靠执行任务,体现了方法的总体稳健性。GPT-4o和GPT-4o-mini在自一致性和精确率等关键指标上表现更优,相比GPT-3.5-Turbo有统计显著改进。GPT-4o提供最佳平衡性能,而GPT-4o-mini以显著更低的推理成本提供具有竞争力的性能,适用于大规模部署。

相关性分析揭示了输出推理长度与准确率和自一致性之间的中等至强正相关。这些发现有助于解释较小模型如GPT-4o-mini如何通过更详细的推理输出,在某些指标上匹配或超越较大模型的性能。

错误分析显示不同模型存在 distinct 行为模式:GPT-4o-mini产生更多假阳性,倾向于识别不存在的链接;GPT-3.5-Turbo和GPT-4o则产生更多假阴性,遗漏部分有效链接。因此,模型选择可根据应用需求定制:若目标是尽可能捕捉潜在依赖,GPT-4o-mini更为适合;若精确性重要且需最小化错误链接,则GPT-4o或GPT-3.5-Turbo更合适。

研究结论与局限:本研究提出了基于RAG的框架,利用LLM自动化从非结构化技术文档生成对称DSM。通过提示模型显式推理系统元素间的依赖关系,该方法改进了现有工具。基于九份合成文档的实证评估表明,LLM特别是GPT-4o和GPT-4o-mini能在DSM提取中取得有前景的性能,其中GPT-4o-mini在成本与性能之间提供了有吸引力的平衡。研究还发现模型推理质量(以输出长度反映)对性能有显著贡献。

局限性包括:当前实现假设系统实体列表为手动提供,未来工作将探索使用RAG集成实体提取;合成数据集虽实现了受控评估,但其人工性质和有限复杂度未能完全代表真实工程文本的挑战,需要更广泛的大规模多样化技术文档验证;成本约束限制了本研究测试规模;模型输出偶尔存在不一致,特别是预测不对称或矛盾依赖,需通过额外一致性解决机制改进;研究仅针对对称DSM,未来拟扩展至非对称DSM;仅评估OpenAI模型,未来应扩展至其他LLM并改进提示和RAG流程;研究聚焦架构DSM,未来拟扩展至组织或程序关系DSM以增强适用性。本论文发表于《Proceedings of the Design Society》。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号