CODE-ACCORD语料库:面向建筑规范自动合规检查的机器可读规则生成数据集

【字体: 时间:2025年01月30日 来源:Scientific Data 5.8

编辑推荐:

   为解决建筑规范文本自动解析难题,研究团队开发了CODE-ACCORD语料库,包含862条英格兰与芬兰建筑规范的自包含句子,人工标注4,297个实体和4,329组关系,支持NLP技术在自动合规检查(ACC)中的深度应用,为BIM与语义分析技术融合提供关键数据基础。

  

在建筑、工程和施工(AEC)领域,确保建筑设计方案符合规范要求是保障安全性的关键环节。传统的人工合规检查不仅耗时费力,还容易因主观判断产生误差。随着建筑信息模型(BIM)技术的发展,自动合规检查(ACC)成为可能,但核心挑战在于如何将自然语言书写的建筑规范转换为机器可理解的格式。现有方法依赖人工规则制定或特定领域标注数据,存在泛化性差、跨域适应困难等问题,且缺乏公开可用的高质量标注数据集。

针对这一技术瓶颈,由英国兰卡斯特大学、伯明翰城市大学等12家机构组成的国际团队在《Scientific Data》发表了CODE-ACCORD语料库。研究人员从英格兰和芬兰的33份建筑规范文档中,通过半自动化流程提取20,674条原始句子,筛选出1,246条自包含句子(包含完整规则信息且无需外部参照),最终对862条进行深度标注。创新性地采用四类实体(object/property/quality/value)和十类关系(如necessity/part-of/greater-equal等)的通用标注体系,突破传统方法对特定领域或区域的限制。

关键技术方法包括:(1)使用PDFMiner和NLTK工具链处理1,688页规范文档;(2)基于定量/主观/道义特征的三级句子过滤策略;(3)LightTag平台支持的12人跨学科标注流程;(4)七轮标注-校验循环确保数据质量;(5)分层抽样构建训练集/测试集(80%/20%)。

【数据收集方法论】研究团队处理了英国和芬兰33份法规文档(1,688页),通过PDF文本转换、句子分割和三级过滤(定量要求、主观要求、道义逻辑)获得5,043条候选句子,经人工校验得到1,246条自包含句子。统计显示,英格兰规范占文档总量的92%,但芬兰规范的句子信息密度更高(19% vs 5%最终入选率)。

【数据标注方法论】标注体系设计突出跨域通用性:实体标注涵盖对象(如"防火门")、属性("宽度")、特性("自关闭")和数值("1,500毫米");关系标注包含必要性、部分关系及五种数值比较关系。采用12人团队(计算机科学和土木工程背景)的交叉标注模式,通过七轮迭代使实体标注一致率达0.37(严格匹配条件下)。

【数据记录】最终数据集包含862条句子(英国663条,芬兰199条),形成4,297个实体和4,329组关系的知识网络。实体分布显示quality类占比最高(38%),关系类型中necessity(必要性)占26%。数据以CSV格式公开,包含原始文本、IOB格式实体标签及...标记的关系对。

【技术验证】通过分层抽样确保训练/测试集分布一致性,实体和关系类别在两组间的比例误差小于2%。采用三重校验机制:初始标注训练、多轮独立标注(每句2-3人)、专家终审,特别处理了8,104组"无关系"样本的平衡问题。

该研究创建了首个跨国家、跨领域的建筑规范标注数据集,其重要意义体现在三方面:(1)通用标注框架突破现有方法对特定法规的依赖,支持从防火安全到无障碍设计等多领域应用;(2)为深度学习模型(如Bi-LSTM、Transformer)提供高质量训练数据,推动NLP技术在ACC中的实际应用;(3)开放的4,329组关系标注为构建法规知识图谱奠定基础,助力BIM模型的智能合规验证。研究团队特别指出,未来可基于该数据集探索大语言模型(LLM)在规范自动转换中的应用,如生成LegalRuleML等标准格式的合规规则。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号