基于概率程序与强化学习的车辆设计生成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

基于概率程序与强化学习的车辆设计生成

《Proceedings of the Design Society》：Generating vehicle designs using probabilistic programs and reinforcement learning

【字体：大中小】 时间：2026年07月03日 来源：Proceedings of the Design Society

编辑推荐：

　　研究人员介绍了FORGE（Optimization and Reinforcement-driven Generative Engineering，面向优化与强化驱动生成工程的框架），这是一个用于生成式设计的概率编程（Probabilistic Program

研究人员介绍了FORGE（Optimization and Reinforcement-driven Generative Engineering，面向优化与强化驱动生成工程的框架），这是一个用于生成式设计的概率编程（Probabilistic Programming）框架，统一了声明式符号建模与强化学习（Reinforcement Learning, RL）。FORGE能够基于模拟器派生的奖励，通过强化学习来学习并优化设计生成器。研究人员在多个车辆领域展示了FORGE的应用。FORGE为生成工程创建了可扩展、可解释的基础，既可以作为机器学习的的数据生成器，也可以作为设计优化器，为纯神经方法提供了实用的替代方案。

研究背景方面，人工智能（Artificial Intelligence, AI）正在重塑众多产业，工程设计领域亦不例外。从建筑概念设计到计算机辅助设计（Computer-Aided Design, CAD）工具，AI工具的应用日益广泛。然而，工程设计中的数据表示与生成是一个关键挑战，这与图像、视频生成等生成式AI应用存在本质区别——设计表示中的微小错误可能导致设计不可行，且大规模工程设计数据集稀缺，往往依赖科学仿真引擎的接入。这些问题促使研究人员开发了FORGE框架。目前存在的主要问题包括：神经生成方法缺乏可解释性、黑箱优化技术难以同时兼顾生成与优化功能、领域特定语法难以跨仿真器泛化。因此，开展这项研究旨在提供一种结合符号化建模与机器学习的统一框架，以解决生成式设计中的数据稀缺、表示约束和优化需求。

研究人员开展了FORGE框架的设计、实现与多领域验证工作。该框架基于Python的dataclasses和typing包构建声明式数据模型，利用PyTorch的概率分布类实现参数化采样，并通过仿真模拟器获取奖励信号，采用基于近端策略优化（Proximal Policy Optimization, PPO）的多臂老虎机（Multi-Armed Bandit）强化学习算法优化分布参数。研究得出结论：FORGE能够作为数据生成器和设计优化器，在保持完全可解释性的同时生成高性能设计，为生成工程提供了区别于纯神经方法和黑箱优化方法的独特工具。其重要意义在于，FORGE建立了符号化方法与机器学习之间的桥梁，使领域专家能够利用先验知识构建可解释的生成模型，并通过强化学习持续改进设计质量。该论文发表于《Proceedings of the Design Society》。

研究人员为开展研究所用的主要关键技术方法包括：基于Python数据类（dataclass）的声明式域建模技术，支持基本类型（float、int、str、bool）、结构化类型（List、嵌套数据类）及递归数据模型；PyTorch概率分布参数化技术，为每个选择点配置高斯分布、分类分布、Beta分布等；基于反射机制的元程序解释采样技术，自顶向下生成设计并计算对数似然；仿真器接口与奖励函数设计技术，涵盖Webots地面车辆仿真器、IsaacSim高保真三维物理仿真器、RocketPy火箭动力学仿真器及基于Suave的飞行动力仿真器；以及基于PPO多臂老虎机变体的梯度下降优化技术，批量生成设计并通过Adam优化器更新分布参数。

研究结果部分按照论文结构呈现如下。

建模（Modelling）。研究人员通过创建数据模型或模式（schema）来定义设计空间，使用Python数据类作为构建模块，支持基本类型和结构化类型。关键特性包括递归数据模型，通过抽象类及其递归子类实现开放式设计：例如无人机（UAV）的管状机身可包含连接枢纽（ConnectedHub3_Sym），其字段指向抽象类MainSegment，后者既有PropArm和WingArm等叶节点子类，也有CrossSegment和RotatedArmSegment等递归子类，从而能够生成任意深度的树状结构，实现高度创造性的设计。概率分布（Probability Distributions）为每个选择点配置初始参数，使用PyTorch内置分布类和Parameter类确保自动微分支持训练，初始化时保持非限制性以避免先验偏差。

生成（Generation）。设计生成采用自顶向下的元程序解释执行方式，从根类（如UAV）开始，在每个选择点从关联分布中采样。FORGE采样器利用Python反射能力处理数据模型，同时计算每个设计的对数似然（log-likelihood），作为后续训练的优化目标。此过程无需设计者编写实际程序，由框架自动完成模型解释与设计生成。

评估（Evaluation）。设计评估通过仿真器接口实现，研究人员编写仿真接口程序完成三项任务：将高级设计转换为仿真器原生低级格式、从Python框架调用仿真器、处理结果数据并返回基于专家设计奖励函数的标量奖励。奖励函数综合反映设计性能指标，如 Webots 域中的障碍跨越与时间折扣奖励。

训练（Training）。训练阶段引入强化学习优化生成器参数。每轮生成设计批次，经仿真评估获得奖励后，计算损失函数并通过梯度下降更新概率参数，使高奖励设计更可能出现。具体采用多臂老虎机形式的PPO算法，每轮仅执行一个完整设计的原子动作。框架还支持部分设计补全功能，在部分参数固定的约束下仅对缺失参数进行采样和训练，满足系统设计需求。

多领域应用结果。Webots地面车辆域：构建含多障碍的赛道环境，奖励函数为障碍物跨越奖励与时间折扣之和。数据模型支持非刚性底盘、柔性关节连接、多种形状尺寸车轮及偏移量，生成高度非传统的陆地车辆设计。IsaacSim迁移：同一数据模型适配NVIDIA高保真三维仿真金黄色环境与物理仿真器，利用GPU加速实现整批（如32个设计）并行评估，缓解Webots多实例CPU瓶颈。RocketPy火箭域：针对不同目标（最大远地点、精确着陆、目标高度）优化，基于RocketPy仿真器生成火箭设计，初始失败率约60%，经150轮训练后降至5%以下。Suave飞行气质器与飞行出租车：连接基于Suave的飞行气质仿真管道，以升阻比（lift coefficient over drag coefficient）为奖励，生成具有翼展尺寸、机翼数量、推进系统配置等变异的设计。图10展示了UAV域学到的典型概率分布：主翼x位置偏向范围上限（后置以保障稳定性）、最优展长约为最大值的60%（平衡诱导阻力与型阻）、内翼横截面数量与一般航空器常见1-2块面板吻合。学习后的完整模型包含约100个分布，每个分布含1-2个参数，完全可解释。

讨论部分，研究人员指出当前采用单步（多臂老虎式）强化学习将完整设计生成与评估作为原子动作，虽计算便利且契合概率程序结构，但未充分利用设计构建的序列特性。未来可通过现有部分设计实例机制扩展至多步策略，实现增量决策、分层优化与复杂设计选择中的改进信用分配。多样性测量方面，由于FORGE基于显式概率编程，可从分布角度（如熵、结构覆盖率、参数散布）定义多样性，便于领域专家解释验证。优化策略方面，尽管本研究聚焦于强化学习，初步实验表明贝叶斯优化（Bayesian Optimization）因参数空间高维度（最多186个可训练参数）而不可行，而基于梯度的强化学习依赖批量化仿真自然扩展。其他方向包括相比神经网络生成分布更具可解释性的特点所蕴含的固有优势。

研究结论部分翻译如下：研究人员在本文中介绍了FORGE，一个面向工程设计的概率框架。重点关注了车辆设计的说明性示例，展示了如何将FORGE适配于不同的设计领域。随后展示了框架的工作原理，包括建立数据模型及其后生成大量多样化设计的能力。在此之后，可以将生成的设计与领域特定仿真器结合使用，构建用于机器学习任务的庞大数据集，如研究人员在先前工作中已做的那样。此外，研究人员展示了如何直接对数据模型的概率分布参数进行优化，以产生高性能设计。这种经过优化的设计分布是生成式模型，其可解释性优于基于神经网络的生成分布。研究人员认为，探索多步学习、分数驱动的多样性度量、更高效的优化算法以及在更大规模真实世界设计问题中的应用，包括与现有CAD工作流及其他AI工具的集成，将是从这一框架出发的下一步工作。

联系信箱：

粤ICP备09063491号

热点排行