
-
生物通官微
陪你抓住生命科技
跳动的脉搏
知识引导可控扩散模型在自动驾驶场景生成中的创新应用与性能提升
【字体: 大 中 小 】 时间:2025年06月16日 来源:Neurocomputing 5.5
编辑推荐:
为解决自动驾驶验证中自然驾驶数据集多样性不足、真实性与可控性受限的难题,同济大学团队提出知识引导可控扩散(KGCD)框架。该研究通过因子化注意力机制捕捉时空交互特征,结合先验知识设计可微分成本函数,实现符合预期属性的场景生成。实验表明,KGCD在nuScenes数据集上使真实性、可控性和稳定性指标分别提升3.57%、7.66%和7.71%,并创新性提出运动模式估计器(MPE)模块加速推理。该成果为复杂驾驶场景库构建提供了新范式。
自动驾驶技术的安全性验证长期受限于真实场景数据的稀缺性。现实交通环境中复杂的长尾场景(如极端天气、突发事故)在自然驾驶数据集中出现频率极低,但恰恰是检验系统鲁棒性的关键。传统方法依赖驾驶模拟器回放日志或启发式控制器,难以保证生成场景的真实交互;基于生成模型的方法虽能学习行为分布,却无法突破训练数据边界生成定制化场景。这种"真实性"与"可控性"的矛盾,成为制约自动驾驶测试效率的瓶颈。
针对这一挑战,同济大学电子与信息工程学院的研究团队在《Neurocomputing》发表论文,提出知识引导可控扩散(Knowledge-Guided Controllable Diffusion, KGCD)框架。该研究创新性地将驾驶先验知识转化为可微分约束,通过因子化注意力(Factorized Attention)机制融合多智能体时空交互特征,构建了兼具高保真度和高可控性的场景生成系统。实验证明,该方法在nuScenes和nuPlan数据集上显著超越基线模型,为自动驾驶系统的闭环测试提供了高效解决方案。
关键技术包含:1)基于nuScenes/nuPlan数据集构建异构智能体交互场景;2)采用因子化注意力机制实现场景级联合运动预测;3)通过信号时序逻辑(Signal Temporal Logic)将先验知识编码为可微分成本函数;4)设计可训练的运动模式估计器(Motion Pattern Estimator, MPE)加速扩散模型推理。
【Motion prediction】
研究团队首先构建了场景级多智能体联合运动预测模型。通过分层处理HD地图的拓扑结构,利用因子化注意力捕获车道-车辆-行人间的时空依赖关系。相比传统栅格化方法,该模块在nuScenes数据集上使交互行为预测误差降低19.3%,为后续生成提供精确的物理约束基础。
【Methodology】
KGCD框架核心包含两个创新模块:在推理阶段,设计多样化引导策略将驾驶知识(如安全距离、交通规则)转化为梯度信号,通过引导采样生成符合特定约束的场景;针对扩散模型计算瓶颈,MPE模块通过预测去噪分布实现步长跳跃,使推理速度提升2.4倍而不损失生成质量。实验显示,该方法在生成"紧急避让"等长尾场景时,轨迹合理性评分较基线模型提高7.66%。
【Dataset】
采用trajdata工具箱统一处理nuScenes和nuPlan数据集,标准化坐标系、时间戳等属性。特别筛选包含≥5个交互智能体的复杂场景作为测试集,验证显示KGCD在稠密交通场景中的生成稳定性指标优于现有方法7.71%。
【Conclusion】
该研究突破性地将领域知识嵌入生成模型推理流程,实现"数据驱动"与"知识引导"的协同优化。因子化注意力机制有效解决多智能体策略共享导致的运动偏差,MPE模块为扩散模型在实时系统的应用提供工程实践方案。成果不仅填补了自动驾驶场景库的空白,其知识引导框架对机器人仿真、虚拟现实等领域也具有普适意义。
作者Ce Shan等指出,未来工作将探索动态知识库的在线更新机制,并研究多模态约束下的分层引导策略。该研究获得国家自然科学基金支持,相关代码已开源。
生物通微信公众号
知名企业招聘