基于专利图像研究主导设计的数据驱动方法

《Proceedings of the Design Society》：A data-driven approach to studying dominant designs through patent images

【字体：大中小】 时间：2026年07月03日 来源：Proceedings of the Design Society

编辑推荐：

　　主导设计（dominant design）为行业内所有产品建立了事实上的标准，塑造了竞争与创新动态。研究主导设计使企业能够为新产品的开发做出知情决策，并预测技术变革。本研究提出了一种基于计算机的方法，可自动从专利图纸中提取组件的空间构型（spatial con

主导设计（dominant design）为行业内所有产品建立了事实上的标准，塑造了竞争与创新动态。研究主导设计使企业能够为新产品的开发做出知情决策，并预测技术变革。本研究提出了一种基于计算机的方法，可自动从专利图纸中提取组件的空间构型（spatial configuration），以支持主导设计的分析与异常检测。以眼镜为案例研究验证了该方法，展示了其在数据驱动设计创新中的潜力。

在全球化和快速变化的竞争环境中，新产品开发已成为众多企业和研发（R&D)团队的首要任务。为提升竞争力，许多企业尝试通过引入新功能、新组件或修改架构配置来创新现有产品，以提供新颖或高性能的解决方案。然而，技术创新本身并不能保证市场成功或盈利能力，特别是在已建立标准和主导设计的行业中，市场动态受到这些因素的深刻影响。现有研究表明，当市场接受某种产品设计作为定义整个行业产品规格的事实标准时，主导设计便得以确立（Brem et al., 2016）。标志性案例包括菱形车架自行车、QWERTY键盘、现代智能手机的触摸屏布局，以及发动机置于机翼下方的商用喷气式飞机配置。一旦主导设计确立，后续创新通常基于已被接受的设计展开，行业内的竞争性质从产品创新转向优化已接受设计的生产过程（Murmann and Frenken, 2006）。主导设计作为基础蓝图，整合了已确立的设计原则、组件配置和固化的功能关系，简化了设计和制造过程，同时确保跨产品变型和产品族的可重用性和兼容性（Ulrich, 1995）。因此，开发突破主导设计的创新产品不仅技术上具有挑战性，而且商业上风险较高，因为市场对新颖设计的抵制可能导致盈利能力下降，甚至威胁企业的长期生存（Suárez and Utterback, 1995）。

在此背景下，对主导设计进行系统分析成为指导工程设计中的设计决策和产品创新的关键焦点。第一，通过理解产品的主导设计，工程师能够就偏离主导设计的必要性和方式做出更明智的决策，这也有助于企业理解设计哪些方面对于竞争至关重要，从而降低研发活动中的技术不确定性和风险（Brem et al., 2016）。第二，分析主导设计使工程师能够识别不同产品之间共享的空间构型和功能结构，促进具有相似架构的产品之间的设计知识转移，增进对兼容性和技术交叉的理解（Dong, 2017）。第三，通过监测设计构型相对于参考主导设计的变化，工程师可以检测可能预示早期技术不连续性的偏差或异常，从而使企业的研发活动与演进的技术轨迹保持一致。

为推进主导设计的分析，研究人员提出了一种从专利图像中自动提取产品空间构型的新方法。研究人员构建了一个基于计算机的系统，用于识别专利图像中组件的位置，并为给定物体类别（如眼镜）构建空间构型。研究假设为：当一种产品的多种替代设计共享相似的组件排布时，这表明主导设计的存在。为验证该假设，研究人员在眼镜领域开展了案例研究，提取了眼镜组件的共享空间排布，并用于分析主导设计和检测异常。最后，研究人员讨论了该分析结果如何为开发新方案的设计决策提供信息。

在工程设计领域，主导设计的理论概念可从功能视角和结构视角两个维度进行考察。根据结构视角，主导设计体现为行业向产品架构中组件的共同排布趋同，也称为产品结构、空间构型或布局（Murmann and Frenken, 2006）。另一方面，从功能视角看，当行业收敛于一组共同的核心功能时，主导设计便会出现，而不论这些功能通过何种物理配置或实现方式达成（Robinson et al., 2023）。

现有主导设计研究聚焦于提供主导设计的正式定义（Murmann and Frenken, 2006）、解释主导设计的形成机制（Suárez and Utterback, 1995; Robinson et al., 2023），以及研究其对行业层面创新绩效和竞争的影响（Brem et al., 2016）。尽管该研究体为理解主导设计提供了广泛的理论基础，但很少涉及工程师和设计师如何将主导设计概念应用于指导现实设计决策和新产品开发。此外，许多主导设计研究依赖定性案例分析方法，通过手动分析专利或技术规格等文档来识别单一产品类型（如汽车、智能手机、飞机）随时间演变的主导设计。例如，Díaz Lankenau and Winter (2019)分析了农用拖拉机主导设计的出现，提供了该行业演变的历史和物理动因；Robinson et al. (2023)手动分析专利文档以识别缝纫机的主导设计和创新轨迹；Khan and Cameron (2025)手动收集了365种具有不同特征（如电池容量、驱动类型、充电时间）的电动汽车配置的制造数据并进行比较以识别主导设计。由于这些方法均为手动操作且局限于特定产品类型，难以将其发现应用于所研究案例之外的设计决策。

为克服现有局限，本研究首次尝试弥合主导设计理论与设计实践之间的差距。具体而言，研究人员开发了一个基于计算机的系统，通过分析组件的空间位置自动从专利图像中分析主导设计。此外，研究人员展示了提取的主导设计如何在实践中用于识别异常并支持设计决策，以眼镜领域的案例研究加以说明。值得注意的是，所提出的方法具有可推广性，为设计人员提供了可应用于其他可获得专利图像的技术领域的实用工具。

研究方法采用结构视角，分析专利图纸中组件的位置。该方法扩展了通常仅限于物料清单（bill of materials）的传统分析，纳入了组件之间的空间关系。事实上，重大创新和替代设计往往源于对产品空间构型的修改。研究方法包括四个主要阶段：（1）数据收集，收集专利图纸；（2）图像预处理，准备专利图纸以供后续分析，包括旋转、裁剪和调整图像至标准尺寸；（3）产品结构提取，识别组件位置；以及（4）主导设计分析，整合专利集中的组件位置以构建代表主导设计的共同空间构型，并识别潜在的创新途径。

数据收集方面，研究人员选择眼镜领域收集专利，因为眼镜代表相对简单的机械系统，组件数量有限，便于主导设计的识别和分析。专利图像因其公开可用且可通过基于网络的搜索界面轻松检索而被选用，这提高了研究的可重复性。此外，专利数据在以往主导设计研究中被广泛使用，因其捕获了广泛竞争产品设计和架构替代方案。专利数据及相应图纸来自欧洲专利局维护的PATSTAT数据库。研究人员收集了国际专利分类（IPC）类别G02C1（对应"带鼻梁或眉梁的镜片组件"）的专利，使用查询式IPC = "G02C1" AND PUL = "en"（其中PUL = "en"限制结果为英文专利）。共收集1982至2025年间发表的535项专利，其中322项包含图纸，共计2980幅专利图纸。

图像预处理阶段，为提取G02C1领域内的主导设计信息，执行了多项预处理步骤：（i）选择技术图纸：专利通常包含技术性和非技术性图纸，如曲线图、流程图或化学结构。由于本研究关注组件的空间构型，非技术性图纸被排除。两名具有工程设计专长的博士生手动筛选技术图纸，识别出2404幅技术图纸；（ii）分割单幅图纸：技术图纸常包含多个子图像，描绘同一物体的不同视图，通常标有不同标题如Fig. 1A、Fig. 1B或Fig. 2。为分离单幅图纸，两名博士生手动分割这些图形 ation, extracting 3,500 single technical drawings of eyeglasses; (iii) 选择绘图视角：单幅技术图纸可从不同视角描绘同一物体，包括前视图、侧视图、俯视图或等轴测图。由于组件空间构型取决于视角，本研究仅聚焦于等轴测视角。仅包含展示等轴测视图的技术图纸，因该视角提供了眼镜最完整的可视化，使所有组件清晰可见。最终数据集包含43幅等轴测视角的眼镜技术图纸；（iv）旋转图纸：技术图纸呈水平或垂直方向。为确保一致性，自动将垂直方向图像（高度超过宽度）顺时针旋转90°以实现统一的水平格式；（v）裁剪图纸：此步骤旨在通过去除无关背景并仅保留眼镜来标准化技术图纸。首先使用光学字符识别（OCR)工具检测图标题（如Figure 1a、Figure 2），该技术自动检测并将图像或扫描文档中的文本转换为机器可读格式。具体而言，研究人员使用DocTR检测标题并用白色像素遮罩以防止裁剪过程中的干扰。然后，在四个方向（上、下、左、右）检测最外层的非白色像素，其坐标用于自动定义裁剪边界；（vi）调整图纸尺寸：最后一步标准化所有图像尺寸，以确保来自不同专利的技术图纸的可比性。计算数据集的平均宽度和高度，并将每幅图像调整至这些均值，实现统一的图像尺寸。

值得注意的是，步骤i）、ii）和iii）因两个主要原因手动执行。首先，研究人员旨在使用黄金数据集评估流程，从而避免这些预处理步骤中的误差传播。其次，这些任务的自动化方法在专利分析文献中已相当成熟，超出本研究范围。

产品结构提取阶段的第一步是识别组件。由于产品由分层组织的多个子系统组成，定义分析的人工制品详细程度至关重要。缺乏此界定，任何主导设计概念化都将变得模棱两可且不可靠：在最详细的分析层次上，没有任何两个人工制品完全相同；而在最粗略的分析层次上，每两个人工制品都相同（Murmann and Frenken, 2006）。因此，本研究仅聚焦于构成眼镜架构的五个主要组件：右镜片（Lens dx）、左镜片（Lens sx）、右镜腿（Temple dx）、左镜腿（Temple sx）和鼻梁（Bridge）。这些组件并非预先定义，而是作为数据集中最频繁呈现的组件出现。

为识别组件，研究人员使用了技术图纸中的组件编号（component numbers），即分配给发明特定部分的数字标识符。这些标识符在随附的专利文本中被引用以唯一标识单个组件。研究人员使用DocTR识别组件编号，输出每幅图纸中组件编号的坐标及其识别的数字标签。坐标用于确定组件的精确位置，而数字标签用于将每个组件编号与专利文本中的对应名称匹配。

第二步涉及使用组件编号匹配专利文本中的组件名称。此方法在专利分析中已较为成熟。本研究基于相同理念自动从专利文本中识别组件名称。对于每个组件编号，提取其前紧邻的单词或短短语、单字词（monogram）、双字词（bigram）和三字词（trigram），然后选择出现频率最高的n-gram作为该组件的代表性名称。由于相同组件在不同专利中可能使用不同术语指代，如"right glass"、"right lens"或"optical element"，因此需要处理此类同义词以确保等效组件的一致识别和分组。为此，研究人员开发了基于文本的聚类流程以自动将组件名称分组。具体而言，收集每个组件名称出现的所有句子，使用bert-for-patents（针对专利文档训练的大型语言模型，LLM）将每个组件名称转换为其句子上下文中的数值向量表示，即嵌入（embedding），生成词级别嵌入以捕获丰富的语义信息。同一组件名称的所有嵌入相加产生该组件的单一聚合表示。然后应用聚类算法将组件嵌入组织成语义相似组件的聚类。两名博士生对结果聚类进行人工审查以识别和消除错误和不准确之处，主要源于n-gram分词过程。此后，保留包含十个以上元素的聚类以确保统计稳健性，对应Lens dx、Lens sx、Temple dx、Temple sx和Bridge，分别包含17、17、12、16和14个组件。鉴于43幅图像被纳入分析，保留的组件聚类存在于约30-50%的图像中。

第三步涉及提取组件在技术图纸中的精确位置。实用专利中的技术图纸通常包含将组件编号与图纸对应部分连接的箭头，作为视觉线索指示图纸哪些部分对应专利文本中描述的组件。通过检测箭头端点，可以识别技术图纸中单个组件的位置。基于Chen et al. (2015)提出的理念，研究人员开发并测试了追踪箭头（Follow-The-Arrow, FTA）算法，用于自动追踪箭头并识别专利图纸中的组件位置。该算法分三步执行：（i）识别起点：算法从使用DocTR获得的组件编号坐标开始，通过同心圆增量追踪检测非白色像素来识别箭头起点；（ii）追踪箭头：从每个识别的起点出发，算法通过追踪形成箭头主体相连黑色像素逐步追踪箭头。若无箭头存在（即组件编号直接置于组件上而非通过箭头指向），模型将检测到的起点作为组件位置返回；（iii）识别端点：算法基于端点区域通常表现出低局部像素强度方差的经验观察来识别箭头端点。在技术图纸中，此类区域通常均匀为白色，因为箭头尖端通常终止于代表组件实体的实心（白色）区域。识别的端点由像素坐标(x, y)组成，用作组件位置以构建主导设计表示。

为测试FTA算法的性能，两名具有工程设计专长的博士生手动标注了专利图像中的1643个端点。将FTA预测端点与手动标注端点（真实值）比较，使用基于距离的度量，定义为e^-λd，其中d为FTA预测端点与其对应真实值端点之间的欧氏距离（像素），λ为控制距离敏感度的衰减参数。衰减参数λ经验设置为0.002。当两个端点重合时（d=0）度量等于1，随距离增加呈指数衰减至0。全局精度通过计算测试数据集所有端点上度量值的平均值得出。最终获得0.78 ± 0.21的整体精度，证明了FTA算法在提取组件位置方面的有效性。

主导设计分析的最后一步涉及将五个组件聚类与其对应组件的空间位置相结合以构建统一表示。每个组件由其(x, y)坐标及其所属聚类表征。然后在共享的(x, y)空间中绘制所有组件，每个点代表一个组件并根据其聚类着色（即散点图）。研究假设同一聚类的组件（如所有右镜片或所有鼻梁）将自然集中于该共享空间的特定区域，因为它们在不同眼镜设计中趋于占据一致的相对位置。此过程将一组异质的专利技术图纸转换为统一的数据驱动表示的眼镜架构。该方法使眼镜的主导设计从数据本身涌现，而非主观定义或从单一示例推导，为标准和新奇的空间构型提供了经验证据。

研究结果部分，图2展示了主要组件的主导设计表示。每个点对应一个独特组件，其位置对应通过FTA算法获得的x和y像素坐标，颜色指示所属聚类。当许多眼镜设计共享相似的组件排布时，这种相似性即表明主导设计的存在。图2清楚显示主要组件在专利图像的特定区域聚类，为假设提供了视觉证据。例如，属于Temple sx聚类（粉色）的组件总体位于右上角，而Temple dx（蓝色）的组件位于左上角。此外，代表Bridge聚类（绿色）的点位于图像下部、Lens dx（紫色）和Lens sx（黄色）之间。

为定量评估主导设计表示，研究人员分析了各组件聚类的x和y坐标分布。图3展示了这些分布，其中面板（a）显示x坐标，面板（b）显示y坐标。每个箱线图代表四分位距（IQR），包含从第一四分位数（Q1）到第三四分位数（Q3）的中央50%数据。箱内线表示中位数（Q2）。须线延伸至距四分位数1.5×IQR范围内的最小值和最大值，超出此范围的点显示为异常值。图3显示x和y分布具有不同的中位数和IQR，其组合可用于区分每个组件聚类的位置。例如，Temple dx和Bridge聚类的x分布重叠，这从眼镜的等轴测视图来看是预期的，而它们的y分布则呈现明显不同的形状。

为评估x和y坐标分布在组件聚类间是否存在显著差异，并确保这些差异不受所选特定点的影响，研究人员进行了三项统计检验。首先应用Shapiro-Wilk检验判断x和y分布是否服从正态分布。结果表明，除Lens dx的y分布和Temple dx的x分布外，所有x和y分布均可视为正态分布，此偏差可能源于分布中较少的点数（约12-17个）。其次，进行Levene检验评估x和y分布是否具有相等方差，所有比较的p值均大于0.05，表明方差无统计学显著差异。第三，鉴于x和y分布独立、满足正态性假设且具有相等方差，使用参数化成对Student's t检验确定它们是否显著不同。具体比较每对聚类（如Lens dx vs Temple dx、Lens dx vs Bridge等）的x和y坐标。为确认发现的稳健性，使用不假设正态性的非参数Mann-Whitney检验重复分析，结果与Student's t检验一致。

表2显示大多数x和y分布的比较表现出显著差异，每种情况下至少两个分布之一显著。例如，Lens dx和Temple sx组件的x分布无显著差异，因其在透视图中通常共享相似的x坐标；但它们的y分布显著不同，表明两个组件在专利图纸中占据不同的y坐标。这些发现表明研究方法不仅捕获了组件位置，还能有效基于x、y位置区分不同组件，这是该方法的理论贡献，通过数据驱动方法证明特定空间构型在眼镜架构中一致涌现。虽然主导设计的概念长期从理论上讨论并先前通过手动图像分析识别，但该方法提供了主导设计的可测量2D表示，并据研究人员所知构成了使用真实数据对主导设计的首次经验验证。

异常分析部分，获得的主导设计表示可用于自动检测眼镜空间构型中的异常。当组件位置偏离x或y坐标分布时，即被识别为异常值。这些异常组件置于非寻常位置，被标记为需要进一步分析的异常。通过检查x和y坐标分布中的异常值进行此分析。如图3所示，异常值定义为超出四分位数1.5×IQR的点。在72个点中识别出6个异常点。手动检查包含这些点的图像以评估组件的任何非寻常定位。检查揭示这些异常值不代表设计异常，而是由三种误差来源导致：一是箭头常从侧面而非中心指向组件，使用其端点作为坐标可能引入位置不准确性；二是FTA算法在追踪锐利或不规则边缘箭头时的局限性导致错误的组件定位；三是图像裁剪步骤的问题，保留了白色边距并扭曲了图像缩放。

异常分析揭示所分析专利图像中的组件位置无设计意义上的异常。此结果可由两个主要因素解释：首先，所有分析专利属于同一IPC类别"带鼻梁或眉梁的镜片组件"，仅涵盖传统眼镜设计，排除军用眼镜和特殊用途眼镜等更多样类型，因此在此类同质的专利图像集中主要组件的位置异常不太可能发生；其次，眼镜本身符合与人体鼻子和耳朵的标准化接口，使得主要组件如镜腿、镜片和鼻梁在标准设计中的位置变化不太可能。总体而言，异常分析确认了主导设计空间构型的稳定性，并表明其全部潜力将在应用于超出单一IPC类别的架构更多样化的专利集时显现。

视觉比较分析部分，获得的主导设计表示对于G02C1 IPC类别之外的高级比较分析仍然是有价值的工具。通过将设计表示叠加到新图像上，可以直观比较输入图像中组件的空间构型与主导设计定义的空间排布。这种视觉比较促进类比和异常的识别，标记潜在的创新设计解决方案。为进行此分析，首先使用x和y坐标的实际分布为每个聚类生成合成数据点。由于x和y坐标分布经检验为正态，使用各自的均值和标准差为每个聚类生成100个正态分布的合成点。为减少异常值影响，生成过程中仅考虑四分位距内的点。此合成生成过程通过基于观测经验分布模拟更大的数据点样本，增强了主导设计表示的统计有效性。

图4展示了将主导设计表示投影到新输入图像的示例。图4a展示了主导设计表示在专利US4810080A图像上的叠加。虽然点聚类大体上与主要眼镜组件的位置对齐，但组件编号18（对应头带）明显位于主导设计构型之外。这表明了引入了一种新的（意外的）组件，引入了新的功能需求——在动态活动中提高眼镜的保持性和稳定性——这可能未在专利文本中明确提及。此外，视觉比较明确展示了这些组件的引入如何改变主导设计的结构配置，而这些信息难以仅从常受语言模糊性和术语不一致影响的文本描述中准确重建。类似地，图4b展示了专利EP3090303B1中可折叠配置眼镜的透视图。此情况下，与主导设计构型的重叠在所有组件上均不一致，这表明引入了全新的产品架构和新颖功能需求——通过减少存储体积提高便携性，以及用于折叠的受控旋转。传统的仅列出组件名称的物料清单无法在相同组件使用时揭示架构差异。相比之下，本分析明确了组件如何空间排布，展示了设计师如何调整现有组件及其设计参数以实现特定配置。值得注意的是，该方法不限于专利图纸，一旦获得主导设计表示，也可应用于非技术性图像如照片（前提是将第3.2节描述的图像预处理步骤正确应用于输入图像）。

研究结论部分，研究人员提出了概念验证应用，旨在通过数据驱动的计算机方法提取眼镜标准架构的可测量2D表示，弥合主导设计理论与设计实践之间的差距。该工作存在若干局限，目前限制了在眼镜领域可获得的洞察深度及其向更复杂产品的扩展；尽管如此，它揭示了未来研究方向和定量分析技术图纸的一般性挑战。

第一，主导设计表示仅由组件位置构建，因此无法区分组件占据相似位置但在几何或形状上显著差异的设计。例如，两副眼镜可能在相同(x, y)坐标处具有鼻梁，但一种设计采用与镜片组件集成的实心鼻梁，另一种采用带可见泡沫支撑的两根独立杆。使用对象检测和分割模型（如Meta的Segment Anything Model，SAM）提取组件几何形状可捕获位置和形态差异，支持与组件形状和集成程度相关的设计决策。

第二，分析仅考虑五个主要组件，导致对眼镜架构的粗粒度表征。未来工作应扩展方法以包含次要和小型组件；但这将需要更精确的定位方法以可靠捕获其位置，这一挑战据研究人员所知尚未针对通常缺乏色彩且包含复杂线条的技术图纸得到充分解决。

第三，研究仅限于眼镜的单一视角视图。未来工作必须解决如何比较不同视角展示的图纸，通过定义共享的空间参考和标准化步骤。

除方法论贡献外，研究人员的途径证明主导设计不仅是理论构建，而且可以通过识别意外组件、非标准空间构型及其潜在功能需求来支持数据驱动决策。虽然该方法仍属于旨在证明方法论可行性的概念验证应用，但研究人员相信人工智能的快速进步，特别是视觉-语言（Vision-Language, VL）模型如ChatGPT-5、SORA和DALL-E，为扩展当前工作开辟了有前景的途径。事实上，VL模型现在可以从文本描述生成图像、为技术图纸着色、识别组件以及回答基于文本的图像内容问题。这些能力支持技术图纸的组件级分析，并使该方法能够扩展至更复杂的产品系统，在模块化分析、接口发现、产品族分析和竞争对手基准测试等方面具有潜在应用。

热点排行