面向数据驱动设计的技术图纸目标检测：以专利为例

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Proceedings of the Design Society》：Object detection in technical drawings for data-driven design: the case of patents

【字体：大中小】 时间：2026年07月03日 来源：Proceedings of the Design Society

编辑推荐：

　　数据驱动设计（Data-Driven Design, DDD）正作为一种变革性方法在工程设计领域兴起，其利用人工智能工具从设计数据中提取知识以驱动产品开发与创新。尽管大语言模型（Large Language Models, LLMs）已通过文本数据分析推动了D

数据驱动设计（Data-Driven Design, DDD）正作为一种变革性方法在工程设计领域兴起，其利用人工智能工具从设计数据中提取知识以驱动产品开发与创新。尽管大语言模型（Large Language Models, LLMs）已通过文本数据分析推动了DDD的发展，技术图纸领域仍有待深入探索。为应对当前视觉-语言（Vision-Language, VL）模型的局限性，本研究提出了一种创新的目标检测（Object Detection, OD）流程，该流程可自动识别专利图像中的组件，从而实现对组件几何形状、接口及空间配置的数据驱动分析。

在数字化时代，数据的海量增长与多样性已深刻重塑了组织的运营与决策模式，而人工智能计算能力的提升亦在改变产品开发与设计的方式。在此背景下，数据驱动设计（DDD）作为一种范式转变应运而生，其通过从数据中提取知识来指导设计决策，将设计实践从直觉驱动转向数据驱动。然而，现有DDD研究主要依赖自然语言处理技术处理文本数据，大语言模型（LLMs）的出现在进一步强化这一趋势的同时，也暴露出仅依赖文本的局限性——文本难以充分捕捉设计实体的结构细节、几何特征及空间布局，且存在(Path-name:Y)受语言歧义和术语不一致性的困扰。技术图纸作为工程设计中创新的主要交流媒介，能够提供文本无法替代的互补信息，但其视觉信息的自动提取仍面临重大挑战。

现有专利图纸分析研究多聚焦于整体图像相似性比较，将整张专(I)利图纸作为分析单元，未能深入到组件层面的细粒度分析。这种粗粒度方法无法识别图纸内部的具体组件及其特征，难以为DDD提供可操作的洞察。在目标检测领域，基于YOLO等模型的机器学习方法需要大规模标注数据集进行训练，而技术图纸中组件类别跨越不同技术领域、形态尺度各异，且缺乏现成标注数据集，使得传统微调方法难以适用。视觉-语言模型虽可通过提示机制直接定位目标，但存在对图像方向、空间构型敏感，以及输出结果非像素级分割掩膜、难以直接用于后续量化分析等缺陷，其在技术图纸上的空间推理能力亦被证实有限。

针对上述局限，本研究提出了一种无需人工标注、利用专利图纸自身结构特征的创新OD流程。该流程以Meta公司开发的Segment Anything Model（SAM）为核心，通过光学字符识别（OCR）技术提取专利图纸中的组件编号，继而运用本研究开发的"Follow-The-Arrow"（FTA）算法追踪从编号指向组件的箭头，最终以箭头端点作为SAM的分割点（segmentation points）生成组件分割掩膜。

研究样本来源于欧洲专利局维护的PATSTAT数据库，检索策略为国际专利分类号（IPC）"G02C1"（带鼻梁或眉架的镜片组件）且公开语言为英语，共获得535件专利，其中含专利图纸322件，关联图纸2980幅。经两名具有工程设计专长的博士生人工筛选保留技术图纸669幅，并进一步裁剪为1223幅单张技术图纸。研究选取眼镜类专利因其机械结构相对简单、组件数量有限，便于评估OD流程性能。

方法流程包含七个关键步骤。数据收集阶段从PATSTAT数据库获取专利；图像预处理阶段排除图表、流程图、化学式等非技术图纸，并裁剪子图像以标准化输入；组件编号识别阶段采用DocTR这一前沿OCR模型检测图纸中的数字标识符及其坐标；FTA算法阶段基于Chen等人提出的思路，通过同心圆径向搜索确定箭头起点、沿梯度垂直方向逐步追踪箭头路径、依据像素方差检测终点区域；对象分割阶段将FTA输出的终点作为SAM的分割点，生成组件对应的像素级分割掩膜；测试数据集创建阶段由两名博士生对随机抽取的120幅图像（含1643个组件）进行三任务标注（组件编号识别、箭头终点标注、组件边界多边形绘制），该过程耗时约66.1小时，凸显了人工标注的大规模不可行性；性能评估阶段分别采用准确率百分比、基于欧氏距离的衰减度量、交并比（IoU）及平均交并比（mIoU）量化各步骤表现。

研究结果显示：DocTR识别组件编号的准确率为67%，表明OCR模型能够正确识别大部分组件编号，但仍有提升空间；FTA算法整体准确度达0.78，标准差0.21，主要误差来源包括编号周围噪声干扰起点检测、箭头非典型形状导致追踪偏离、以及终点区域非均匀白色造成的过追踪；SAM分割性能方面，原始黑白图纸的mIoU为0.135，SORA上色后提升至0.150，若仅考虑镜框、镜片、鼻梁、镜腿等主要组件（n=75），黑白与彩色条件下的mIoU分别为0.230和0.375。Mann-Whitney U检验证实色彩对主要组件分割性能具有显著影响（p<0.05），但对所有组件的整体影响有限，原因在于SORA模型未能为小型子组件（如枢轴、铰链）分配区分性色彩。SAM的主要误差来源包括：对分割点位置高度敏感、箭头指向侧面而非组件中心导致掩膜偏移、以及训练数据与线稿技术图纸的领域差异导致复杂形状分割碎片化。

本研究的技术方法核心在于：（1）DocTR光学字符识别引擎用于组件编号自动检测；（2）FTA箭头追踪算法实现从文本标识到组件空间位置的映射；（3）SAM模型基于提示点的零样本分割能力；（4）SORA生成式AI模型的图纸彩色化预处理策略。样本队列为PATSTAT数据库中IPC分类G02C1的眼镜类专利，经人工筛选获得669幅技术图纸。

结论部分，研究人员指出当前AI模型在技术图纸分析方面存在技术就绪度不足的问题，细粒度分析能力尚不足以支撑设计决策。该研究通过利用专利图纸固有的编号-箭头结构，规避了对大规模标注数据的依赖，为DDD中的自动组件提取提供了可行路径。彩色化方法亦展现出辅助组件边界识别与接口发现的潜力。未来工作将开展案例研究以评估该OD流程对实际设计任务的影响，并探索点簇分割策略及更精细的组件级彩色化技术。

该论文发表于《Proceedings of the Design Society》。

联系信箱：

粤ICP备09063491号

热点排行