面向数据驱动设计的技术图纸目标检测:以专利为例

《Proceedings of the Design Society》:Object detection in technical drawings for data-driven design: the case of patents

【字体: 时间:2026年07月03日 来源:Proceedings of the Design Society

编辑推荐:

  数据驱动设计(Data-Driven Design, DDD)正作为一种变革性方法在工程设计领域兴起,其利用人工智能工具从设计数据中提取知识以驱动产品开发与创新。尽管大语言模型(Large Language Models, LLMs)已通过文本数据分析推动了D

  
数据驱动设计(Data-Driven Design, DDD)正作为一种变革性方法在工程设计领域兴起,其利用人工智能工具从设计数据中提取知识以驱动产品开发与创新。尽管大语言模型(Large Language Models, LLMs)已通过文本数据分析推动了DDD的发展,技术图纸领域仍有待深入探索。为应对当前视觉-语言(Vision-Language, VL)模型的局限性,本研究提出了一种创新的目标检测(Object Detection, OD)流程,该流程可自动识别专利图像中的组件,从而实现对组件几何形状、接口及空间配置的数据驱动分析。
在数字化时代,数据的海量增长与多样性已深刻重塑了组织的运营与决策模式,而人工智能计算能力的提升亦在改变产品开发与设计的方式。在此背景下,数据驱动设计(DDD)作为一种范式转变应运而生,其通过从数据中提取知识来指导设计决策,将设计实践从直觉驱动转向数据驱动。然而,现有DDD研究主要依赖自然语言处理技术处理文本数据,大语言模型(LLMs)的出现在进一步强化这一趋势的同时,也暴露出仅依赖文本的局限性——文本难以充分捕捉设计实体的结构细节、几何特征及空间布局,且存在(Path-name:Y)受语言歧义和术语不一致性的困扰。技术图纸作为工程设计中创新的主要交流媒介,能够提供文本无法替代的互补信息,但其视觉信息的自动提取仍面临重大挑战。

现有专利图纸分析研究多聚焦于整体图像相似性比较,将整张专(I)利图纸作为分析单元,未能深入到组件层面的细粒度分析。这种粗粒度方法无法识别图纸内部的具体组件及其特征,难以为DDD提供可操作的洞察。在目标检测领域,基于YOLO等模型的机器学习方法需要大规模标注数据集进行训练,而技术图纸中组件类别跨越不同技术领域、形态尺度各异,且缺乏现成标注数据集,使得传统微调方法难以适用。视觉-语言模型虽可通过提示机制直接定位目标,但存在对图像方向、空间构型敏感,以及输出结果非像素级分割掩膜、难以直接用于后续量化分析等缺陷,其在技术图纸上的空间推理能力亦被证实有限。

针对上述局限,本研究提出了一种无需人工标注、利用专利图纸自身结构特征的创新OD流程。该流程以Meta公司开发的Segment Anything Model(SAM)为核心,通过光学字符识别(OCR)技术提取专利图纸中的组件编号,继而运用本研究开发的"Follow-The-Arrow"(FTA)算法追踪从编号指向组件的箭头,最终以箭头端点作为SAM的分割点(segmentation points)生成组件分割掩膜。

研究样本来源于欧洲专利局维护的PATSTAT数据库,检索策略为国际专利分类号(IPC)"G02C1"(带鼻梁或眉架的镜片组件)且公开语言为英语,共获得535件专利,其中含专利图纸322件,关联图纸2980幅。经两名具有工程设计专长的博士生人工筛选保留技术图纸669幅,并进一步裁剪为1223幅单张技术图纸。研究选取眼镜类专利因其机械结构相对简单、组件数量有限,便于评估OD流程性能。

方法流程包含七个关键步骤。数据收集阶段从PATSTAT数据库获取专利;图像预处理阶段排除图表、流程图、化学式等非技术图纸,并裁剪子图像以标准化输入;组件编号识别阶段采用DocTR这一前沿OCR模型检测图纸中的数字标识符及其坐标;FTA算法阶段基于Chen等人提出的思路,通过同心圆径向搜索确定箭头起点、沿梯度垂直方向逐步追踪箭头路径、依据像素方差检测终点区域;对象分割阶段将FTA输出的终点作为SAM的分割点,生成组件对应的像素级分割掩膜;测试数据集创建阶段由两名博士生对随机抽取的120幅图像(含1643个组件)进行三任务标注(组件编号识别、箭头终点标注、组件边界多边形绘制),该过程耗时约66.1小时,凸显了人工标注的大规模不可行性;性能评估阶段分别采用准确率百分比、基于欧氏距离的衰减度量、交并比(IoU)及平均交并比(mIoU)量化各步骤表现。

研究结果显示:DocTR识别组件编号的准确率为67%,表明OCR模型能够正确识别大部分组件编号,但仍有提升空间;FTA算法整体准确度达0.78,标准差0.21,主要误差来源包括编号周围噪声干扰起点检测、箭头非典型形状导致追踪偏离、以及终点区域非均匀白色造成的过追踪;SAM分割性能方面,原始黑白图纸的mIoU为0.135,SORA上色后提升至0.150,若仅考虑镜框、镜片、鼻梁、镜腿等主要组件(n=75),黑白与彩色条件下的mIoU分别为0.230和0.375。Mann-Whitney U检验证实色彩对主要组件分割性能具有显著影响(p<0.05),但对所有组件的整体影响有限,原因在于SORA模型未能为小型子组件(如枢轴、铰链)分配区分性色彩。SAM的主要误差来源包括:对分割点位置高度敏感、箭头指向侧面而非组件中心导致掩膜偏移、以及训练数据与线稿技术图纸的领域差异导致复杂形状分割碎片化。

本研究的技术方法核心在于:(1)DocTR光学字符识别引擎用于组件编号自动检测;(2)FTA箭头追踪算法实现从文本标识到组件空间位置的映射;(3)SAM模型基于提示点的零样本分割能力;(4)SORA生成式AI模型的图纸彩色化预处理策略。样本队列为PATSTAT数据库中IPC分类G02C1的眼镜类专利,经人工筛选获得669幅技术图纸。

结论部分,研究人员指出当前AI模型在技术图纸分析方面存在技术就绪度不足的问题,细粒度分析能力尚不足以支撑设计决策。该研究通过利用专利图纸固有的编号-箭头结构,规避了对大规模标注数据的依赖,为DDD中的自动组件提取提供了可行路径。彩色化方法亦展现出辅助组件边界识别与接口发现的潜力。未来工作将开展案例研究以评估该OD流程对实际设计任务的影响,并探索点簇分割策略及更精细的组件级彩色化技术。

该论文发表于《Proceedings of the Design Society》。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号