一种面向钣金构件多目标、基于分段生成式设计的深度强化学习方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Proceedings of the Design Society》：A deep reinforcement learning approach for the multi-objective, segment-based generative design of sheet metal components

【字体：大中小】 时间：2026年07月03日 来源：Proceedings of the Design Society

编辑推荐：

　　当前钣金零件（sheet metal parts）生成式设计（Generative Design）的研究方法通常仅考虑单一优化目标。本文提出了一种深度强化学习（Deep Reinforcement Learning, DRL）概念方法，用于训练智能体（agen

当前钣金零件（sheet metal parts）生成式设计（Generative Design）的研究方法通常仅考虑单一优化目标。本文提出了一种深度强化学习（Deep Reinforcement Learning, DRL）概念方法，用于训练智能体（agent）通过组合预定义库中的分段（segments）来生成钣金零件。借助加权奖励函数（reward function），可针对不同优化目标或其组合对智能体进行训练，例如质量、成本或可持续性。由此获得的智能体能够生成最优解的Pareto前沿，从而支持围绕多样化设计目标对设计空间进行高效探索。

该文发表于《Proceedings of the Design Society》，围绕钣金构件（sheet metal components）生成式设计（Generative Design）中“设计空间巨大、现有方法多为单目标且缺乏学习能力”的核心问题，提出了一种面向多目标优化的深度强化学习（Deep Reinforcement Learning, DRL）概念框架。研究背景在于，随着可持续性成为工程设计的重要目标，钣金构件因具备可回收性、较高材料利用率以及良好结构性能，在制造阶段与服役阶段均具有重要价值。然而，钣金件设计开发过程通常耗时、依赖经验，限制了该类制造方式的推广。尽管生成式设计已经在增材制造、铣削等领域取得进展，但在钣金设计中的应用仍较少。现有少数相关研究虽能生成较大的候选解空间，但主要依赖确定性搜索或基于规则的方法，通常只围绕单一目标进行优化，且无法通过历史搜索经验持续改进。基于此，研究人员试图构建一种能够在多目标、潜在冲突目标条件下高效探索钣金分段组合设计空间的学习型方法，以提升设计适应性、可扩展性与泛化能力。

论文首先系统梳理了工程设计中生成式设计的发展脉络，并指出现有CAD驱动方法、特征修改方法以及面向钣金构件的形状文法（shape grammar）与分段组合方法的局限。尤其是Barda等提出的两步式方法，先建立钣金分段库，再搜索分段组合形成完整构件，但由于组合空间随候选分段数量呈指数增长，穷举仿真不可行，因此采用束搜索（beam search）对候选方案进行预筛选。研究人员认为，束搜索虽然能一定程度压缩搜索规模，但由于其每一步仅保留top-k候选，可能过早丢弃长期最优路径，且不能从过往迭代中学习，因此在大规模设计空间下仍存在明显局限。与之相比，强化学习（Reinforcement Learning, RL）能够通过与环境交互实现探索（exploration）与利用（exploitation）的平衡，并借助神经网络对复杂、高维与序列化决策问题进行表征，因此适合处理钣金分段组合这种图结构、组合优化特征突出的设计任务。

在方法层面，研究人员提出了一个尚处于概念框架阶段的深度强化学习生成式设计方案。该方案以前置构建的分段库为基础，库中包含能够连接给定安装点（mounting points）的所有可行钣金分段。各分段共享预定义连接接口，可通过布尔运算（Boolean operations）组合成连续钣金结构，并以标准折弯工艺实现单板制造。由于该问题本质上可表述为可变图规模（variable graph size）的图组合优化问题，研究人员在策略模型中引入图神经网络（Graph Neural Network, GNN），以适应节点和边数量可变、拓扑结构不固定的装配式设计表示。由此，钣金构件生成问题被重新表述为一个序列决策过程：智能体逐步从分段库中选择分段，环境则执行分段组合、检查几何可制造性，并根据设计性能返回奖励信号。

研究人员围绕强化学习框架的四个基本组成部分——状态（state）、动作（action）、奖励（reward）和训练（training）——进行了详细定义。其中，状态被表示为一个动态演化的图：节点对应安装点，包含其空间坐标以及是否已连接的二值标记；边对应连接节点的钣金分段，记录长度、截面积、厚度等几何属性以及质量、碳足迹等材料属性，同时附带“是否已构建入当前构件”的标志。该表示使模型能够在任意时刻综合把握构件的几何关系与材料相关特征。动作空间则由“选择某一具体分段”以及“停止（stop）动作”组成。当智能体判定构件已经完成时，可发出停止动作结束本轮构建。为保证可制造性，每一步之后都执行碰撞检测（collision check）；若出现碰撞或无效几何，则触发终止条件并提前结束该轮训练，同时给予惩罚性反馈。

奖励函数设计体现了本文多目标优化思想的核心。研究人员指出，在设计早期、安装点尚未完全连接时，对新连接点给予较小正奖励，以引导智能体形成完整结构。随着方案逐渐接近预设优化目标，奖励幅值增大。例如，质量更轻、折弯次数更少、材料使用更省的方案可获得更高回报；同时，不同目标还可通过加权组合方式共同进入奖励函数，从而体现设计偏好。在每个回合结束时，系统进一步基于有限元分析（Finite Element Analysis, FEA）结果、制造成本与碳足迹等关键绩效指标计算终局奖励；若回合因碰撞等失效条件终止，则给予负奖励，以促使智能体规避低质量设计决策。通过这种阶段性与终局性相结合的奖励构造，智能体可逐步学习到符合制造约束且满足多目标性能要求的分段组合策略。

为实现训练过程，论文选择了行动者—评论家（actor–critic）范式，并采用近端策略优化（Proximal Policy Optimization, PPO）作为核心深度强化学习算法。作者指出，在图结构与连续决策过程并存、且环境模型未知的条件下，PPO与优势行动者—评论家（Advantage Actor–Critic, A2C）均为可行候选，而PPO由于在组合优化问题中应用广泛且对超参数设置具有较好稳定性，因此更适合本研究。具体而言，行动者网络（actor network）与评论家网络（critic network）均由GNN实现。训练初始时，环境状态图输入网络，GNN对全部安装点与候选分段进行编码，得到包含局部与全局结构依赖信息的节点嵌入与边嵌入；随后边嵌入输入多层感知机（Multi-Layer Perceptron, MLP），经Softmax层转化为对各分段或停止动作的概率分布。环境根据所选动作更新当前构件并计算奖励，评论家网络估计当前状态的期望回报，据预测值与实际奖励之间误差进行参数更新，再以优势值（advantage）反向指导行动者改进策略。如此迭代，智能体逐步提升对高价值分段组合路径的识别能力。

方法部分所采用的主要关键技术可以概括如下：其一，以预定义钣金分段库作为设计单元来源，将构件生成问题转化为分段组合优化问题；其二，以图表示学习为基础，采用图神经网络（GNN）对安装点—分段关系进行状态建模，从而处理可变规模图结构；其三，基于行动者—评论家架构引入近端策略优化（PPO）算法，通过奖励驱动实现多目标强化学习训练；其四，利用加权奖励函数编码质量、刚度、制造成本、可持续性等目标偏好，并通过多智能体分别对应不同权重组合，以形成Pareto前沿。本文未涉及实验样本队列，亦未开展实体实现与实验验证。

在“3. Developed approach”部分，研究人员明确提出整体框架：从预生成的分段库中选择合适分段，构建满足结构要求并可通过标准折弯工艺制造的钣金零件。该部分的关键结论是，钣金分段组合问题适合被建模为图上的序列决策与组合优化问题，因此可采用GNN与深度强化学习相结合的方式进行求解。

在“3.1. State”部分，研究人员通过图状态建模给出了设计过程的动态表示方法。结论是，以安装点为节点、以分段为边的图模型，能够同时编码空间连接关系、几何属性和材料属性，从而为后续策略学习提供足够的信息基础。

在“3.2. Action”部分，研究人员定义了动作由“选择一个分段”或“停止构建”组成，并引入碰撞检测作为可制造性约束。该部分表明，动作设计不仅承担构件生成功能，也内嵌了对无效几何与碰撞方案的排除机制，从而将制造约束前置到决策过程中。

在“3.3. Reward”部分，研究人员构建了多阶段、多指标奖励体系。由此得出的结论是，借助连接进度奖励、目标导向奖励以及终局绩效奖励，可以将结构完整性、制造简化、材料节约、成本与碳足迹等要求统一映射到强化学习反馈信号中，为多目标优化提供可操作机制。

在“3.4. Training”部分，研究人员详细说明了PPO驱动的GNN行动者—评论家训练流程，并强调探索与利用平衡的重要性。该部分结论是，通过Softmax概率选择、随机探索机制以及多样化训练情境——包括不同载荷工况、不同安装点数量与布局、不同分段几何——可增强智能体的泛化能力，使其不局限于单一构型。

在“4. Application for design space exploration in generative design”部分，研究人员进一步阐述了该框架在设计空间探索中的作用。通过改变奖励函数中的目标权重，可训练多个分别偏向不同设计目标的智能体；这些智能体共同生成一组可行设计候选，并形成Pareto前沿。该部分的核心结论是，该方法可将传统依赖人工参数调整或穷举搜索的设计空间探索，转化为面向可制造优良解区域的自动化、结构化搜索过程。

在讨论部分，研究人员认为，该研究通过明确定义状态、动作、奖励和训练四要素，回答了“如何设计一个能够在考虑多个优化目标时学习钣金分段选择与组合的强化学习智能体”这一研究问题。与现有基于束搜索的方案相比，所提方法可同时考虑多个、甚至相互冲突的目标，并通过训练多个具备不同奖励偏好的智能体提升设计方案的适应性与泛化性。研究人员还强调，强化学习的优势不仅在于计算效率，更在于其能通过与环境交互自主学习设计策略，从而有机会发现传统规则法或经典优化法容易忽略的非常规但可行构型。此外，奖励驱动的策略学习对较差初始启发式的依赖较低，且较适合动态环境与复杂图表示。

不过，论文也明确指出其主要局限：该方法目前尚未实现，也未经过实验验证，因此现阶段的结论主要限于概念框架层面。与此同时，分段库的特征表征仍是一个关键挑战。不同几何构型的分段可能具有相同质量和折弯次数，但其机械性能却显著不同，因此必须建立更全面、适配性的描述符体系，用以刻画分段的几何、力学与制造属性，并评估这些表征方式对策略学习与设计质量的影响。

研究结论部分可译为：本文提出了一种利用深度强化学习（DRL）改进钣金构件生成式设计的方法。该方法引入一个强化学习智能体，使其能够从预定义分段库中选择并组合合适分段，以形成可制造的钣金零件。通过将设计问题定义为基于图的组合任务，并采用图神经网络（GNN）进行状态表示，该方法能够处理可变规模的设计构型以及构件之间复杂的相互依赖关系。通过改变奖励函数中的权重，可以训练不同智能体以优化单一目标或组合目标，从而生成在质量、刚度与可持续性等竞争目标之间取得平衡的Pareto前沿解集。开发人员可据此结合具体应用需求选择最合适的设计方案。总体而言，该方法为高效探索设计空间并兼顾不同优化目标提供了一种结构化路径。后续工作的直接重点在于算法实现与代表性场景下的实验验证，并进一步完善状态、动作和奖励函数定义以及分段库的全面表征。中期可扩展至焊接、深拉深（deep drawing）等更多制造工艺，长期则可拓展为协同多智能体系统，并结合知识工程（knowledge-based engineering）或约束求解器（constraint solvers）以提升鲁棒性与工业适用性。

联系信箱：

粤ICP备09063491号

热点排行