《Proceedings of the Design Society》:Characterizing geometric variability of industrial 3D models to guide preparation of synthetic datasets for machine learning applications
编辑推荐:
本研究提出了一种表征方法,用于分析工业三维模型数据集中的几何变异性,以支持面向机器学习应用的合成数据集制备。研究人员通过成对豪斯多夫距离(Hausdorff distance)与基于流形的嵌入(manifold-based embedding)技术,识别出生成
本研究提出了一种表征方法,用于分析工业三维模型数据集中的几何变异性,以支持面向机器学习应用的合成数据集制备。研究人员通过成对豪斯多夫距离(Hausdorff distance)与基于流形的嵌入(manifold-based embedding)技术,识别出生成代表性合成数据所需的变异性范围,并证明了目标化数据增强(targeted augmentation)能够有效复现真实数据的几何变异性,最终提升神经网络(NN)模型的可靠性与鲁棒性。
**研究背景与问题提出**
设计自动化领域日益受到机器学习(ML)和数据驱动方法的影响,神经网络(NN)已被广泛应用于三维几何自动分析与设计空间探索等任务,有助于减少人工工作量并加速迭代过程,尤其在面向个体用户或场景的产品适配方面具有重要价值。然而,此类方法的性能高度依赖高质量的训练数据,特别是能够反映真实工业产品结构、变异性及约束条件的三维计算机辅助设计(CAD)模型。与ModelNet、S3DIS等通用三维模型库不同,工业数据集往往具有专有性、结构异质性及标注稀疏性等特点,包含复杂的设计细节、领域特定特征及参数化历史信息,而跨企业或产品族的标准化程度较低。为神经网络训练准备此类数据通常需要大量预处理工作,同时需保持数据集的真实变异性。对于诸多工程应用而言,收集充分大且具代表性的真实世界数据集仍是采用机器学习方法的主要障碍。
合成数据集由此成为解决结构化数据稀缺问题的实用途径,可通过参数化模型、程序化规则或基于模拟的生成流程创建,实现对大量三维模型几何变异性的可控生成。然而,合成数据集的效用取决于其对工业实践所观测几何的反映程度,否则基于此类数据训练的神经网络在应用于真实零件时可能失效。为确保代表性,需对真实工业数据集进行系统性表征。几何表征在此被定义为通过基于距离的一致性比较来量化数据集层面的几何变异性,为合成数据集的选择、生成及增强提供实用参考。
本研究旨在探究真实世界工业三维模型集合的表征方法,以支持更具代表性的合成数据集创建。通过分析真实工业数据集的几何变异性,研究人员识别出合成数据集应重现的距离变异性指示范围,以更好反映真实世界的几何多样性并提升其机器学习应用适用性。
**核心技术与方法**
本研究采用两阶段几何表征方法,主要技术包括:基于豪斯多夫距离的成对距离矩阵计算、分布分析方法以及基于流形的嵌入分析。具体而言,研究人员以个性化牙科基台(dental abutments)作为真实工业数据集实例,该数据集包含1506个STL模型;同时利用Rhino和Grasshopper软件从专门设计的参数化CAD模型生成合成数据集(350个变体),并创建两个增强版本——第一增强数据集将20%随机选择的模型绕x轴旋转180度(共350个模型),第二增强数据集将全部模型复制后随机旋转(共700个模型)。所有数据集经对齐(质心平移至坐标原点)、归一化(单位球内)处理,并统一采样2048个点表示为点云,进而计算成对距离矩阵。流形嵌入分析采用多维尺度分析(MDS, Multidimensional Scaling)、等距特征映射(Isomap, Isometric Feature Mapping)和一致流形逼近与投影(UMAP, Uniform Manifold Approximation and Projection)三种方法。为验证表征结果对神经网络性能的预测价值,研究人员采用PointNeXt算法进行语义分割训练,并以平均交并比(mIoU, mean Intersection over Union)作为评价指标,在真实数据集的手动标注子集上进行验证。
**研究结果**
**几何相似性分布分析**:该分析通过描述性统计提供各数据集内部几何变异性的定量概览。真实工业数据集的豪斯多夫距离分布呈单峰、适度偏斜形态,峰值位于0.35 mm,平均距离最小值为0.29 mm,最大值为0.66 mm,反映了真实数据的中心趋势与离散程度。原始合成数据集与第一增强数据集呈现几乎相同的分布特征,均为峰值0.29 mm的左偏单峰分布,平均距离范围分别为0.22–0.42 mm和0.23–0.44 mm,表明其变异性较低。第二增强数据集则呈现双峰分布,峰值分别位于0.42 mm和0.65 mm,平均距离范围为0.39–0.72 mm,显示出更大的内部多样性,能够覆盖更广泛的工业数据集几何特征值范围。
**基于流形的嵌入分析**:该分析旨在揭示模型间的几何关系结构。MDS分析显示,工业数据集呈均匀分布,无明确分离的聚类,仅存在少量异常值;Isomap和UMAP分析亦观察到相似结构,表明该数据集无法基于几何变异性进行聚类分离。原始合成数据集结构与工业数据集相似,但嵌入值范围明显更窄,未能完全捕捉工业数据集的几何变异。第一增强数据集在MDS和Isomap中表现类似,但UMAP分析显示旋转模型形成分离聚类,体现了UMAP对局部邻域结构的敏感性。第二增强数据集呈现高度异质性分布:MDS检测到两个分离聚类及少量异常值;Isomap中原始合成部分与旋转复制部分清晰可见;UMAP则揭示出七个聚类,分别对应不同旋转角度值的模型分组。
**合成数据集性能探索**:为验证几何多样性的实用意义,研究人员使用不同版本合成数据训练PointNeXt分割算法。基线合成数据集训练的模型在自身测试集上达到96.3% mIoU,但在真实工业数据集上降至82.4% mIoU,验证集中最低mIoU仅9.4%,对应于与合成数据集方向不同的模型。增强数据集表现出显著改善:第一增强和第二增强在真实工业数据集上分别达到88.9%和89.2% mIoU,尤其在方向差异模型上有显著提升。这表明基于三维模型数据集表征指导的数据增强能够产生更优性能的神经网络模型。
**讨论与研究结论**
实验案例展示了三维模型数据集表征如何用于评估合成数据集对工业数据几何变异性的复现能力。通过结合成对距离分布分析与流形嵌入分析,该研究对数据集的全局多样性和三维模型相似性结构进行了详细考察。结果表明,合成数据集较之工业数据呈现更紧凑的相似性结构和更低的几何变异性,而数据增强可根据所选策略增加此变异性。
表征结果揭示了基线合成数据集仅捕捉到有限的工业变异性,而增强仅在针对工业参考指示的方向增加多样性时才改善性能。具体而言,表征表明需要多轴旋转(而非单轴翻转)来覆盖方向驱动的边界情况并更好探索底层形状空间。流形嵌入能够揭示全局距离值无法检测到的结构模式,包括相似性空间中的间隙、边界情况及聚类,这对理解高维相似性空间具有重要价值。
神经网络训练实验显示性能与几何表征高度一致:基线合成数据集训练的模型适用于合成模型但在真实工业数据上表现不佳,尤其面对旋转模型时;而通过复制与旋转组合增强的合成数据集提供了最适宜的几何多样性。这些结果强调,为实现向真实数据的鲁棒迁移,合成数据集应模仿数据集层面的几何变异性;几何表征可作为筛选信号,帮助在分配训练资源前选择或增强合成子集,预测真实数据上的性能下降。
研究存在以下局限:该方法仅在单一工业数据集上验证,泛化性受限;假设参数化CAD模型及生成变体包含代表性几何特征,但未显式验证特征/语义覆盖度;主要关注数据集内部变异性而非真实与合成集合间的显式差距量化;且仅使用豪斯多夫距离计算成对距离矩阵,未评估替代相似性度量的影响。
未来工作将:评估不同几何距离度量对表征结果的敏感性;以正式分布度量与统计检验(如Kolmogorov–Smirnov距离和Wasserstein距离)补充描述性分布比较;扩展验证至更多工业数据集。进一步方向包括整合曲率和特征描述符以更好捕捉任务相关几何属性,以及开发基于所提表征流程从大型合成数据集中自动选择代表性子集的程序。