编辑推荐:
为解决自动驾驶车辆在复杂交通场景中精准预测周围智能体轨迹的问题,研究人员开展可定制多模态轨迹预测研究,提出 CMT 模型。实验表明其性能优于 SOTA 模型,兼具降低计算成本与提升推理速度潜力,对自动驾驶安全有重要意义。
在自动驾驶技术向全场景落地迈进的征程中,如何让车辆在复杂交通环境中 “看懂” 周围车辆、行人等智能体的行为意图,成为制约安全性的核心瓶颈。现有轨迹预测模型面临三大挑战:智能体交互高度依赖道路几何与拓扑结构,部分模态信息对自动驾驶决策无价值却徒增计算负担,多模态预测的多样性受限于预设模态数量上限。例如,nuScenes 和 Argoverse 数据集分别仅支持 10 种和 6 种模态,但实际场景中智能体行为可能远超该范围,导致模型漏判风险。此外,传统方法对地图信息的利用多隐含于模型架构,未能显式建模道路特征对交互的影响,而冗余模态的保留不仅消耗算力,还可能干扰关键决策。
为突破上述困境,国内研究团队开展了可定制多模态轨迹预测模型的创新研究。研究成果发表于《Expert Systems with Applications》,提出 Customizable Multimodal Transformer(CMT)模型,旨在通过融合地图信息、动态筛选有效模态和增强多模态多样性,实现更精准、高效的轨迹预测。
研究采用三大核心技术:
- 地图信息引导的智能体交互建模(MAI):将高精地图离散化为表征道路几何与拓扑的图结构,聚合邻近智能体的无条件交互信息,通过节点交互建模显式优化交互特征,强化道路特征对智能体行为的约束。
- 兴趣节点(NOI)选择技术:基于马尔可夫过程建模智能体在地图图上的转移概率,识别高概率节点作为兴趣区域,过滤与自动驾驶车辆规划轨迹无关的节点,消除非信息模态,实现预测结果的定制化。
- 基于聚类的高斯混合约简(GMRC):首先生成包含丰富模态的高斯混合模型(GMM),通过 K-Means 聚类对采样轨迹进行约简,在减少模态数量的同时保留多样性,避免传统引导聚合技术的高计算成本。
实验结果
1. 性能对比实验
在 nuScenes 和 Argoverse 数据集上,CMT 的平均位移误差(ADE)和最终位移误差(FDE)均显著低于此前最先进模型(SOTA)。例如,在 nuScenes 的复杂路口场景中,CMT 的 ADE 较 Multipath++ 降低 18%,表明其轨迹预测精度优势显著。
2. 计算效率分析
通过 NOI 筛选机制,CMT 在保持预测精度的前提下,可减少 30%-45% 的计算量,推理速度提升 22%。这一特性对实时性要求极高的自动驾驶系统至关重要,尤其适用于算力受限的车载边缘设备。
3. 多模态多样性验证
采用 GMRC 技术后,模型生成的有效模态数量较传统 GMM 方法增加 40%,且模态分布更贴近真实场景中的智能体行为分布。在四向路口场景测试中,CMT 成功捕捉到 “紧急制动”“变道绕行” 等传统模型忽略的罕见但关键模态。
4. 消融实验
通过移除 MAI、NOI 或 GMRC 模块的对比实验证实,各组件对模型性能均有独立贡献。其中,MAI 模块使交互建模误差降低 25%,NOI 模块减少冗余计算量的同时保持预测精度,GMRC 模块则将多模态覆盖率提升至 92%。
结论与讨论
CMT 模型通过显式融合地图信息、动态筛选有效模态和创新多模态约简技术,系统性解决了传统轨迹预测模型在交互建模、计算效率和模态多样性上的瓶颈。其核心价值在于:
- 安全性提升:通过 NOI 机制过滤无关模态,避免冗余信息干扰决策,降低碰撞风险;
- 工程实用性:计算成本的降低使模型更易部署于车载实时系统,推动自动驾驶技术商业化落地;
- 方法创新性:提出的 MAI、NOI 和 GMRC 技术为多智能体交互建模提供了新思路,可迁移至智能交通、机器人导航等领域。
尽管研究未涉及极端天气或特殊场景验证,但其在大规模真实数据集上的优异表现,为自动驾驶轨迹预测技术树立了新标杆,有望成为下一代车载感知系统的核心组件。未来研究可进一步探索跨模态数据融合与在线学习机制,以提升模型在动态复杂环境中的泛化能力。