基于强化学习的可用杆件与销钉机构循环设计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Proceedings of the Design Society》：Reinforcement learning for the design of mechanisms using available bars and pins

【字体：大中小】 时间：2026年07月03日 来源：Proceedings of the Design Society

编辑推荐：

　　本研究探讨如何利用强化学习（Reinforcement Learning, RL）开展基于可用杆件（bars）与销钉（pins）的平面桁架连杆机构循环设计。研究人员采用二分图（bipartite graph）表示与基本动作（elementary action）

本研究探讨如何利用强化学习（Reinforcement Learning, RL）开展基于可用杆件（bars）与销钉（pins）的平面桁架连杆机构循环设计。研究人员采用二分图（bipartite graph）表示与基本动作（elementary action）描述，使智能体（agent）能够在基于物理的仿真环境中逐步组装机构。以力反向器（force inverter）设计问题为例，固定库存训练的成功率为 98.5%，随机打乱库存训练的成功率为 66.0%。该方法展示了强化学习在库存约束机构综合（inventory-constrained mechanism synthesis）中的潜力，未来工作将聚焦于可扩展、索引不变（indexing-invariant）的架构以及更灵活的连接动作。

研究背景与动机

全球循环经济（Circular Economy, CE）框架要求生产与消费模式从线性转向闭环，以降低资源消耗和废弃物产生。在 ten 项循环策略中，再制造（Remanufacture）与重新用途（Repurpose）属于高价值层级，核心是在保持或改变产品功能的前提下复用已有零部件。Gorgolewski 提出的“形式追随可用性”（Form Follows Availability）进一步颠覆了传统设计流程：设计不再先确定几何方案再采购材料，而是依据库存中可获得的构件反塑最终形态。现有研究多利用混合整数线性规划（Mixed Integer Linear Programming, MILP）解决桁架构件复用问题，但面对设计空间中固有的非线性、非凸性与离散变量，以及缺乏通用、鲁棒且高效的非线性混合变量优化器，这类问题的计算难度显著增加。对于含运动构件的机械产品，其运动由隐式非线性运动方程与复杂约束共同支配，可行机构构型极为稀缺，使循环设计更具挑战性。因此，亟需能同时处理组合爆炸、库存约束与非线性运动学的新型计算方法。强化学习（Reinforcement Learning, RL）以智能体在马尔可夫决策过程中通过状态–动作–奖励的交互学习长期最优策略，天然契合工程设计中逐层抽象、逐步收窄搜索空间的特征，也被证明适用于非线性、非凸、离散变量的优化问题。受上述潜力驱动，本研究由 Escande and Shea 的相关工作延伸，首次将 RL 应用于基于可用杆件与销钉的平面连杆机构循环设计，相关成果发表于《Proceedings of the Design Society》。

关键技术方法

研究人员将设计问题建模为 RL 交互过程：以完全二分图表示库存与场景中的杆件和销钉；多层感知机（Multilayer Perceptron, MLP）策略网络由固定长度观测向量输出动作概率，每步选择一个三元组动作（杆件、销钉、端孔），经 Pymunk 二维无重力物理环境验证。杆件与销钉被建模为无碰撞刚体，连接采用 PivotJoint；重复连接、一杆已连两销、几何不可行等无效动作会被回退。随后按 Pellegrino and Calladine 方法计算自应力指数 s（self-stress index，结构中无外载即可自平衡的独立内力状态数）、机构指数 m（mechanism index，结构在不改变杆件长度下可发生的独立刚体运动数）以及线性化运动模态。观测向量包含杆件与销钉的位置、使用标志、杆长、方向、销钉类型、目标/当前运动及双邻接矩阵。奖励由有效动作奖励、未完整杆件数变化、确定性误差与目标–当前位移余弦相似度构成。训练采用 Stable Baselines3 的近端策略优化（Proximal Policy Optimization, PPO），MLP actor-critic 为两层 64 单元 tanh 网络，并对观测与奖励归一化、无效动作立即终止、最大 20 步、clip 参数 0.1。

研究结果

环境验证

为验证环境与物理求解器的稳健性，研究人员对力反向器已知的六步正确动作序列进行全排列测试。结果表明，720 种排列中 660 种成功得到力反向器，成功率 92%；全部运算耗时 2.3 秒，平均每回合 3.2 毫秒、每动作约 0.53 毫秒。这说明环境对动作顺序基本不敏感，物理求解器能够接受任意合法动作并将其稳定到有效构型；失败情形主要源于镜像运动链陷入稳定平衡而无法连接最后一根杆件。随后，研究人员随机均匀采样动作空间运行 10 万回合，每回合执行六个随机动作。奖励分布极度偏向无效奖励，仅有 42 个回合成功，成功率约 0.04%，即平均约 2400 次尝试才有一次成功。该基线揭示了问题空间高度稀疏、有效路径稀缺的本质。

MLP 智能体性能

研究人员训练了两个基于 MLP actor-critic 的 PPO 智能体，各训练 20 万步：一个固定库存中杆件与销钉的顺序，另一个每回合随机打乱库存顺序。固定顺序智能体约 8 万步收敛到回合奖励 23，随机打乱智能体收敛较慢，约 15 万步达到回合奖励 15；两者解释方差均高于 0.5，表明价值网络估计较为准确。在固定库存测试下，固定顺序智能体成功率达 98.5%，几乎完美；但当库存顺序被打乱后，其成功率骤降至 18.7%，说明该策略记住了杆件与销钉索引对应的路径，而非真正学习动作–观测–奖励之间的泛化关系。相比之下，随机打乱库存训练的智能体在乱序库存测试中成功率为 66.0%，显著提升了泛化能力并减少了早期无效动作。上述三种情形均远高于随机基线的 0.04%。训练稳定性得益于观测与奖励归一化、无效动作立即终止、最大回合长度限制为 20 步以及 clip 参数降至 0.1。

结论与展望

本研究为利用强化学习开展基于可用杆件与销钉的平面连杆机构循环设计提供了初步探索。针对组合爆炸、库存约束与非线性运动学带来的计算挑战，研究人员提出了一种结合二分图表示与基本动作描述的方法，并使用 MLP-PPO 智能体在基于物理的仿真环境中逐步组装机构；奖励函数引导智能体达成目标确定性指标与目标运动模态。初步结果表明，强化学习能够从有限库存中生成有效机构：固定库存训练的智能体在力反向器问题上几乎达到完美成功率，随机库存训练的智能体也能获得 66.0% 的成功率，二者均显著优于随机动作基线并学会了规避早期无效动作。然而，当前方法的可扩展性受限：二分图表示随杆件和销钉数量线性增长，可能限制更大规模库存和更多样拓扑的应用。后续研究将比较经典优化方法并评估可扩展性；未来还将探索图神经网络与 Transformer 等索引不变架构，以及更灵活的离散或连续连接动作，使基于强化学习的循环设计更接近可持续、库存驱动的机械工程实践。

联系信箱：

粤ICP备09063491号

热点排行