基于单骨干架构的管道仪表图符号与文本联合识别优化方法研究

【字体: 时间:2025年06月05日 来源:Journal of Computational Design and Engineering 4.8

编辑推荐:

  本研究针对工业管道仪表图(P&ID)识别中模型分离导致的效率低下问题,创新性地提出集成符号-文本检测与识别的单骨干架构。通过特征共享机制和端到端训练,在20张工业P&ID测试集上实现符号检测F1值0.9640、文本识别F1值0.9295的优异性能,为工程图纸数字化提供高效解决方案。

  

在工业设施的全生命周期管理中,管道仪表图(Piping and Instrumentation Diagram, P&ID)作为记录工艺流程的核心工程图纸,其数字化转换一直面临严峻挑战。传统人工转换方法不仅耗时耗力,且质量高度依赖操作者经验。尽管已有研究尝试采用深度学习技术,但现有方案普遍存在模型割裂问题——需要分别部署符号检测、文本检测和文本识别三个独立模型,导致特征无法共享、计算冗余严重。更棘手的是,工业现场大量遗留的纸质或图像格式P&ID图纸,在与现代数字P&ID系统对接时产生严重的数据断层。

针对这一行业痛点,韩国全北国立大学与忠南国立大学联合团队在《Journal of Computational Design and Engineering》发表创新研究,提出基于文本定位(Text Spotting)技术的集成识别框架。该研究突破性地将符号-文本检测与文本识别模块融合至单骨干网络,通过特征复用机制使文本识别模块参数量减少41.2%,推理速度提升3.7倍。在包含82类工业符号的测试集上,该方法在IoU阈值为0.5时取得符号检测精度0.9763、文本识别精度0.9527的优异表现。

技术方法上,研究团队采用Sparse R-CNN作为基础检测框架,通过100个固定提案框实现高效目标定位;文本识别模块创新性地开发了CNN与ViT双分支轻量化架构,其中ViT分支仅保留3个全局混合块;采用连接时序分类(CTC)解码器处理变长文本;测试阶段通过自适应非极大抑制(Adaptive NMS)解决图像分块带来的重复检测问题。实验数据来自韩国H工程公司提供的200张9933×7016像素工业P&ID图纸。

【符号-文本检测模块】
通过对比Deformable DETR、DDOD等四种架构,最终选用六阶段级联的Sparse R-CNN方案。该模块在检测头中新增"text"类别标签,对文本区域同步输出256维特征向量。如表1所示,该方案以12小时训练时长达成0.9627 F1值,较第二名Deformable DETR提升0.63%。

【文本识别模块】
基于RoI Align提取的8×W×C特征图,CNN分支采用三层残差卷积结构,ViT分支则精简为三个全局注意力块。值得注意的是,SVTR-Tiny模型在10,310个测试文本上取得87.43%正确识别率(CRW),而经特征复用优化的Proposed-ViT版本将此指标提升至92.85%(表2)。

【端到端训练机制】
如图5所示的联合训练框架中,检测损失Ldet
包含焦点损失(α=0.25, γ=2)和GIoU损失(λ=2),与CTC文本识别损失(λrec
=100)形成平衡优化。消融实验显示,当λrec
=100时文本识别F1值达到峰值0.9405,较基准提升1.1%(表9-10)。

【工业验证结果】
在密集符号区域(图11),该方法成功克服传统方案常见的三种错误:合并错误(相邻文本误融合)、遮挡错误(符号干扰文本识别)和遗漏错误(部分字符未检测)。对于出现频率低于100次的稀有符号(图6A),如活塞式真空泵等专用设备,检测精度仍有提升空间。

该研究的核心突破在于建立了P&ID识别领域的特征复用范式:通过检测阶段预编码的字符级局部特征,使文本识别模块参数量压缩至2.47M(表8),同时保持92.95%的F1值。这种架构创新不仅省去了传统方法必需的中间图像生成环节,更通过双向语义传播实现了检测-识别的协同优化。未来研究可进一步拓展旋转文本识别能力,并探索生成式模型解决低频符号识别问题,为工业图纸数字化提供更完整的解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号