基于视觉语言模型的场景理解与决策系统，用于自动驾驶车辆，并配备定制的增强现实车载测试平台

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES》：Vision-language model-based scene understanding and decision-making for autonomous vehicles with a tailored augmented reality vehicle-in-the-loop testing platform

【字体：大中小】 时间：2026年02月27日 来源：TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES 7.9

编辑推荐：

　　本文提出解决VLM在自动驾驶中知识控制对齐与评估部署差距的创新框架，包括域对齐的VLM、动态token选择模块和车辆即平台，实现低延迟高精度决策并验证系统可靠性。

宋子瑜|李永福|陶晓文|李伟|丁海涛|曹东浦

吉林大学汽车仿真与控制国家重点实验室，中国长春

引言

随着感知、预测、规划和控制模块的不断进步，自动驾驶在近年来取得了显著进展，从传统的基于规则的系统（Zhang等人，2023b）演变为端到端的解决方案（Chen等人，2024a；Shan等人，2025）。尽管在多个基准测试中表现优异，自动驾驶车辆（AVs）在全面场景理解方面仍面临根本性挑战，并且难以利用驾驶知识实现与经验丰富的人类驾驶员相当的稳健闭环操作。这些限制是该领域进一步发展的关键障碍。

视觉-语言模型（VLM）的最新发展展示了桥接视觉和语言模态的能力，表现出卓越的跨模态推理（Shao等人，2025；Wang等人，2025a）和视觉理解能力（Huang等人，2025）。这一能力为缩小自动驾驶与人类驾驶行为之间的性能差距提供了有希望的途径。代表性模型包括BLIP-2（Li等人，2023）和LLaVA（Liu等人，2024a），它们采用两阶段流程：首先进行图像-文本对齐，然后进行指令调整。为了提高视觉理解能力，最近的方法整合了来自多种视觉编码器的特征（Liu等人，2024b；Wei等人，2022），并采用了动态分辨率策略（Hoanh和Vu Pham，2024），根据纵横比将图像划分为子区域。然而，将这种通用智能转化为实际的自动驾驶应用仍然具有挑战性。最近的研究引入了特定于驾驶的问答数据集（Kuang等人，2025；Qian等人，2024）和基准测试，以更好地使模型训练与自动驾驶场景对齐。然而，这些资源通常缺乏时间对齐的动作级监督，并且主要评估感知或理解能力（Lan等人，2025），因此描述层面的改进并不能可靠地转化为决策和规划的准确性。其他工作依赖于手动注释或事后轨迹标签（Sima等人，2024），这些标签通常在驾驶行为发生后才生成，因此无法准确反映实时意图和决策理由。这种差距最终限制了系统的可靠性。此外，每个推理周期的计算需求——包括多视图和多帧编码以及逐个令牌的解码——引入了显著的延迟，对实时自动驾驶应用构成了重大瓶颈。在提高VLM推理效率方面已经取得了相当大的进展。该领域的研究主要集中在两种方法上：高效的架构设计（Sharshar等人，2025；Yao等人，2025）和模型压缩（Sharshar等人，2025；Xu等人，2023）。这些进步共同为车载集成VLM提供了切实可行的路径。

要使集成VLM的AVs能够在公共道路上可靠地部署，需要一个严格的从训练到部署的评估流程。然而，现有的评估平台存在根本性限制，阻碍了全面评估。广泛采用的模拟器，包括CARLA（Dosovitskiy等人，2017）和LGSVL（Rong等人，2020），提供了可配置的环境和可重复性，但它们缺乏逼真的渲染、真实的传感器模拟效果以及足够多样的代理行为，导致模拟与现实之间的明显差距。作为补充，真实世界数据集如nuScenes（Caesar等人，2020）为感知任务提供了注释，但本质上是离线的日志，缺乏闭环交互和扰动场景或控制实验变量的能力。因此，它们无法揭示规划和控制策略如何影响后续场景的发展。虽然nuPlan（Caesar等人，2021）支持闭环评估，但它仍然局限于模拟环境，因此无法完全捕捉车载计算预算、硬件限制和现实世界干扰。这种从训练到部署的差距促使人们采用更符合实际部署的测试方法，该方法在保持真实传感器和时间特性的同时，能够在车载计算预算内实现可控、可重复、低延迟的闭环评估。

将VLM集成到自动驾驶系统中面临两个根本性挑战：

(1) VLM中的知识与控制不匹配：我们使用基本的驾驶知识来表示支持因果推理和决策的人类类表示。当前VLM的瓶颈不仅仅是缺乏此类知识，而是通用VLM中知识的表示方式与驾驶需求之间的结构不匹配：需要基于时间的语义而不是静态的2D相关性；需要考虑规范和意图的推理而不是描述性的常识；以及需要将感知与行动联系起来的决策对齐的监督，而不仅仅是通用的图像-文本预训练。

(2) 集成VLM的AVs的评估与部署之间的差距：缺失的不仅仅是“更多的测试”，而是一种能够忠实反映部署约束的、决策对齐的、闭环的、实时的评估流程。在公共道路上，罕见但至关重要的场景被低估了，而模拟器虽然更安全，但往往缺乏闭环、真实的传感器扰动和VLM推理所需的系统级时间约束。因此，当前的协议无法同时量化能力层面的能力、闭环交互中的策略层面鲁棒性以及车载计算和延迟预算下的系统层面可行性。这种评估与部署之间的差距掩盖了VLM集成决策在实际AV环境中的真实有效性。

在本文中，我们提出了一个集成VLM的自动驾驶框架，解决了知识与控制的对齐问题，并弥合了评估与部署之间的差距。首先，我们引入了一个针对场景理解和决策的领域对齐VLM。其次，我们开发了一个专为高效车载部署设计的令牌选择模块。通过在语言接口之前压缩视觉令牌，它减少了预填充成本和决策延迟，同时仅有轻微的准确性损失。最后，我们提出了一个符合安全标准的、真实世界车辆在环（ViL）平台，用于VLM集成驾驶评估。该融合路径在车载环境中合并了真实和模拟的传感器流，从而在部署前实现了可控、真实且可重复的闭环测试。主要贡献如下：

1.

我们提出了一个基于VLM的决策框架，该框架在多帧输入上进行微调，并采用行动对齐的监督，提高了驾驶领域知识及其向规划器导向的行为决策的转移能力。该框架是可控的，并且与实时规划器解耦，能够在PC级别的硬件上实现稳定的闭环驾驶，同时相对于现有的VLM流程减少了视觉令牌和解码的负担。

2.

我们引入了一个令牌选择模块，该模块利用历史对象查询作为前景先验，在VLM解码器之前对多帧图像令牌进行压缩。该模块通过优先考虑与行动相关的视觉证据来减少视觉令牌的冗余和推理延迟，这一点通过字幕指标和决策准确性的消融实验得到了验证。

3.

我们开发了一个定制的增强现实基础ViL平台，该平台在保持真实传感器和车辆动态特性的同时，能够在车载计算和时间约束下可控且可重复地注入关键安全场景。实验定量评估了混合现实的融合保真度和鲁棒性，使该平台具有可验证性，并缩小了从训练到部署的差距。

本文的其余部分组织如下：第2节描述了相关工作，第3节介绍了基于VLM的方法和闭环架构，第4节介绍了ViL平台的设计，第5节展示了实验验证，第6节总结了结论。

部分摘录

自动驾驶中的VLM

VLM因其零样本泛化和多模态推理能力而被应用于自动驾驶。早期系统（Ding等人，2025；Fan等人，2024；Kuang等人，2025；Xu等人，2024；Zhang等人，2024）仅处理前置视图的单帧图像，生成文本格式的场景描述或航点以及解释。更近期的工作扩展到了多视图或视频输入（Sima等人，2024；Zhang等人，2023a），以丰富上下文。

VLM架构

图2中展示的VLM架构基于MobileVLM（Chu等人，2024），这是一种专为移动设备设计的计算友好型VLM。VLM包括一个冻结的CLIP ViT-L/16（Radford等人，2021），用于视觉令牌提取，以及一个大型语言模型（LLM）MobileLLaMA，用于文本问答。特别是，给定一个包含张幅图像的视频序列

X_{v} \in R^{T \times H \times W \times 3}

，CLIP ViT的特征

F_{v} \in R^{T \times N_{v} \times D_{v}}

被投影为与模态对齐的视觉令牌

H_{v} \in R^{T \times N_{v} \times D}

ViL平台设置

我们采用了CARLA-ROS联合仿真栈，其中CARLA提供高保真的虚拟驾驶环境，ROS Noetic提供模块化消息传递和CARLA-ROS桥，以实现与车载模块的实时双向耦合。

如图4所示，CARLA模拟器和所提出的方法都部署在配备单个RTX 4080的工业PC上，运行Ubuntu 20.04和ROS Noetic进行模块化通信。CARLA模拟包含交通参与者的复杂交通场景。

训练细节

我们采用了两阶段微调方法将TSM集成到MobileVLM框架中。

TSM预训练。首先独立地在前置摄像头输入上对TSM进行训练，以突出关键视觉令牌。每张图像的分辨率为1600×900，然后将其高度调整为32的倍数，得到1600×928。监督信号由nuScenes数据集中的2D边界框注释生成，生成二进制标签，指示每个视觉令牌是否

结论

本文提出了一个统一的、面向部署的VLM驱动场景理解和决策框架。核心是一个基于运动查询的令牌选择模块，它在不影响准确性的情况下修剪冗余的视觉令牌，同时保留与任务相关的信息。结合LoRA微调的VLM和闭环框架，该系统实现了可靠的行为决策和控制。此外，通过组合虚拟代理

CRediT作者贡献声明

宋子瑜：写作——审稿与编辑，撰写——原始草稿，监督，软件，方法论，调查。李永福：写作——审稿与编辑，监督，方法论，概念化。陶晓文：写作——审稿与编辑，可视化，监督，调查，概念化。李伟：写作——审稿与编辑，可视化，监督，调查，资金获取，概念化。丁海涛：监督，概念化。曹东浦：监督，

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

编辑披露：鉴于李永福是《Transportation Research Part C: Emerging Technologies》编辑顾问委员会的成员，他未参与本文的同行评审，也无法获取有关其同行评审的信息。本文的编辑过程的全部责任由

联系信箱：

粤ICP备09063491号

引言