利用大型语言模型结合混合检索增强生成技术,提升场外施工的质量控制水平
《ADVANCED ENGINEERING INFORMATICS》:Advancing quality control in off-site construction with large language models enhanced by hybrid retrieval-augmented generation
【字体:
大
中
小
】
时间:2026年02月08日
来源:ADVANCED ENGINEERING INFORMATICS 9.9
编辑推荐:
本文针对离场施工(OSC)质量控制在知识整合与决策可靠性方面的挑战,提出了一种基于混合检索增强生成(hybrid RAG)的框架。通过结合向量检索处理非结构化语义数据与图检索实现关系推理,并利用提示学习构建质量控制知识图谱,显著提升了LLM生成结果在质量信息检索、合规检查和任务指导等场景的准确性与可信度。实验表明,该框架相比传统RAG方法在三个典型应用场景中均达到100%的EM得分,验证了混合检索机制在工程知识管理中的有效性。
Fanfan Meng|Mi Pan
澳门大学土木与环境工程系,澳门
摘要
质量控制(QC)对于场外施工(OSC)至关重要,但它仍然严重依赖于检查员的知识和专长。项目面临来自多个利益相关者在不同阶段的异质性和分散知识的挑战,这些问题因熟练劳动力的短缺、主观偏见和人为错误而变得更加复杂。需要一种一致且可靠的方法来指导OSC中的知识驱动型QC,但目前还缺乏这样的方法。本文旨在开发一种新的知识驱动框架,以推进场外施工质量控制,该框架由混合检索增强生成(hybrid RAG)增强的大型语言模型(LLMs)提供支持。混合RAG采用基于提示的方法进行实体和关系提取,以支持从非结构化知识中自动构建图。然后,设计了一种语义对齐方法,以对齐密集检索、稀疏检索和子图遍历,从而使得LLMs能够为复杂的QC决策场景生成更可靠的结果。在三个设计的使用案例中进行了与基线RAG的比较分析,这些使用案例包括质量信息检索、质量合规性检查和质量控制任务指导,使用了三种广泛使用的开源LLMs,即DeepSeek-R1-14B、GPT-OSS-20B和Qwen3-14B。结果表明,所提出的混合RAG在显著提高模型响应准确性、可信度和可靠性方面具有优势。这项研究进一步表明,中等规模的LLMs在适当的指导下可以有效处理复杂的检索和生成任务。本研究的结果为推进施工QC实践提供了宝贵的见解,并为建筑、工程和建筑行业中知识密集型任务的一致性和可靠知识检索的未来研究提供了信息。
引言
场外施工(OSC)是一种创新的施工方法,指的是在建筑物组件、元素或模块最终安装位置之前进行制造和预组装[1]。由于其潜在的好处,如提高生产力、缩短施工周期、改善安全性和减少建筑废弃物[2]、[3],它越来越受到关注。质量控制(QC)在OSC中至关重要,以确保预制组件按照所需的质量和规格制造。特别是,预制组件的广泛生产对QC提出了严格的要求,以在交付到施工现场之前减少潜在的质量缺陷。这突显了在制造过程中有效监控和控制预制组件质量的关键重要性[4]。Ahn等人[5]指出,在现场组装阶段发现的质量问题会显著增加项目成本并延迟缺陷修复的时间表,尤其是在无法进行现场修复且需要返回工厂重新加工的情况下。此外,Kim等人[6]指出,5%-16%的施工成本用于解决OSC中与质量差组件相关的问题,这进一步强调了有效QC的必要性。
尽管QC的重要性不言而喻,但关于从设计到施工活动实施QC的现有研究仍然不足[7],目前的实践仍然具有挑战性。QC是一个复杂且知识密集型的过程,其中质量知识在不同利益相关者和市场之间分散[8]。检查的质量高度依赖于检查员的专业知识和经验,他们的熟练程度可能不同,导致检查标准不一致。各地区涉及的庞大而复杂的法规和标准[9]也加剧了跟踪、识别和执行OSC项目质量要求的难度[10]。此外,熟练QC人员的短缺和频繁流动极大地阻碍了知识共享和流通,导致过度依赖个人在质量诊断方面的能力[11]。此外,场外生产需要额外的人力资源分配和调度,通过派遣合格的检查员到远程工厂,这增加了运营成本并限制了有效的质量管理。最终,虽然现有的质量信息系统支持基本的数据记录,但它们通常依赖于静态的基于规则的机制,缺乏知识检索和交互能力[12]。因此,一种更智能和可靠的质量领域知识管理方法对于支持OSC项目中的复杂QC任务至关重要,从而提高QC的一致性和稳健性,同时最小化主观偏见和人为错误。
以往关于建筑领域基于知识的质量管理的研究主要集中在从多样化文本数据中提取领域专业知识。例如,本体驱动的方法已被用于提高特定应用中自动信息提取的效率,如建筑质量合规性检查[13]和混凝土表面质量评估与决策[14]。此外,自然语言处理(NLP)技术被广泛用于提取质量报告和分析所需的信息,这是实施质量管理的关键过程[15]、[16]。然而,现有范式在有效捕捉复杂语义关系方面仍然面临挑战,因为建筑文件的非结构化性质。精确且系统地表示通过长期实践积累的隐性知识提出了重大挑战。此外,基于本体或NLP的解决方案通常难以在保持关系透明度和可解释性的同时整合来自多个来源的碎片化知识。这些限制突显了需要一种更先进的知识管理方法,能够处理大规模非结构化数据并感知OSC中QC的隐性语义关系。
大型语言模型(LLMs)的出现为开发一种更全面和智能的基于知识的方法提供了有希望的解决方案,以指导建筑领域的质量管理,利用自然语言解释、异构信息分析、非结构化数据处理的上下文感知响应生成能力。然而,LLMs在专门领域面临几个限制,例如以幻觉形式出现的错误输出、训练数据之外的更新不足[17]、领域专业知识的深度不足[18],以及正确归因信息来源的困难[19]。为了解决这些问题,最近的研究探索了各种检索增强生成(RAG)方法,结合生成模型来产生上下文准确且语义丰富的输出。传统的RAG,即基于向量的RAG,基于向量数据库计算查询和文档嵌入之间的语义相似性以检索相关信息,从而改进语言生成[20]。基于向量的RAG在特定领域应用中显示出显著潜力,但仍存在一些问题,如非结构化数据检索和有限的推理能力。基于图的RAG最近作为一种有前途的解决方案出现,通过利用知识图表示领域文档内的语义结构和关系来促进关系推理和上下文理解[21]、[22]。然而,它在缺乏明确实体的抽象查询中通常表现不佳,受到图的完整性和粒度的限制[23]。对于像OSC项目中的QC这样的复杂场景,需要一种混合方法来实现更准确和可靠的知识检索,以支持明智的决策。
本文旨在开发一种新的知识驱动框架,以推进场外施工质量控制,该框架由混合RAG增强的LLMs提供支持。混合RAG结合了基于向量的检索(用于非结构化密集语义和稀疏关键词匹配)和基于图的检索(用于结构化关系推理)。首先,采用基于提示的实体和关系提取策略来构建专门的QC知识图,以支持结构化关系推理。其次,应用Leiden算法来检测语义上连贯的社区并生成结构化摘要,以提高可解释性和可理解性。最后,设计了一种语义对齐机制,以对齐嵌入和关键词级别的实体检索与多跳关系推理。这项研究是首次尝试使用混合RAG增强的LLM方法进行OSC项目的一致性和可靠知识检索,展示了基础模型在支持工程应用方面的巨大潜力。
本文的其余部分组织如下。第2节提供了OSC中QC的概述,以及对RAG研究和应用的考察。第3节介绍了所提出的基于知识的框架,其中包含了混合RAG。第4节概述了用于比较和评估所提出的混合RAG与基于向量检索的基线RAG性能的实验设计和实施,第5节报告了实验结果。第6节讨论了实际意义和理论贡献。最后,第7节总结了本研究的结果。
部分片段
场外施工中的质量控制
质量问题已被确定为影响OSC实施和发展的最关键因素之一[4]、[24]。在整个项目中改进质量保证是管理OSC中问题接口的主要策略[25]。Yin等人[26]强调,OSC项目需要更加重视质量控制措施的实施,以解决普遍存在的质量问题。Gan等人[27]确定了影响施工质量的几个因素
方法论
本研究开发了一种新的知识驱动框架,以增强场外施工质量控制,该框架由战略性地设计的混合RAG提供支持。该框架旨在促进质量信息检索、合规性检查和任务指导,如图1所示。具体来说,混合RAG采用基于提示的方法进行实体和关系提取,以支持自动知识图构建。然后,应用Leiden算法来检测语义上连贯的社区并生成结构化摘要,以提高可解释性和可理解性。
实验设计和实施
为了验证所提出的基于知识的混合RAG方法的有效性,该方法基于OSC项目的QC知识驱动框架构建,考虑了代表性的应用场景并将其设计为使用案例进行全面评估。实际使用案例包括质量信息检索、合规性检查和任务指导,有效地模拟了现实世界的质量控制过程。对于每个使用案例,使用基于向量的基线RAG进行了比较测试
质量信息检索的实验结果
图7展示了在基线RAG和所提出的混合RAG下,三种LLM的使用案例1(质量信息检索)的EM得分结果。结果表明,混合RAG在信息检索方面具有显著的性能优势。虽然基线RAG在DeepSeek-R1-14B、GPT-OSS-20B和Qwen3-14B上的EM得分分别为61.54%、76.92%和84.62%,但混合RAG在所有三种LLM上都取得了100%的完美EM得分。结果表明
讨论
本研究提出了一种针对OSC中QC的新型知识驱动框架,该框架由混合检索增强生成(hybrid RAG)增强的LLMs提供支持。该框架为将碎片化的领域知识形式化为结构化表示建立了理论和方法论基础,从而实现对OSC中QC的全面理解。所提出的混合RAG的新颖之处主要在于它结合了基于向量的检索(用于非结构化密集语义和稀疏关键词匹配)和基于图的检索(用于结构化关系推理)。
结论
本研究开发了一种新的知识驱动框架,以推进OSC中的QC,该框架由结合了基于向量的检索(用于非结构化密集语义和稀疏关键词匹配)和基于图的检索(用于结构化关系推理)的LLMs增强。具体来说,所提出的混合RAG采用基于提示的实体和关系提取来自动化知识图构建,同时
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系,这些利益或关系可能会影响本文报告的工作。
致谢
本项工作得到了澳门特别行政区科学技术发展基金(文件编号:0101/2024/RIB2)和澳门大学(文件编号:SRG2023-00006-FST)的资助。我们还要衷心感谢参与这项研究的参与者分享他们的经验和见解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号