基于Transformer的离线到在线强化学习方法，用于自动驾驶中的决策与控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Transformer-based offline-to-online reinforcement learning for decision-making and control in autonomous driving

【字体：大中小】 时间：2026年02月14日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　自动驾驶复杂环境下多车交互决策控制系统研究提出基于Transformer的离线到在线强化学习框架TORL，通过离线预训练捕捉长期时空依赖，结合混合回放缓冲、人机协同安全探索和异构数据源学习在线微调，有效缓解分布偏移和灾难性遗忘问题，在MetaDrive仿真环境中实现29.4%的归一化收益提升和46.1%的任务成功率，同时保持零碰撞记录。

谭飞宏|卢平|张福林|叶欣|胡波|舒星

教育部先进汽车零部件制造技术重点实验室，重庆工业大学，重庆，400054，中国

摘要

在涉及交叉路口、环岛和合流匝道等多车辆交互的复杂动态环境中，开发用于自动驾驶的强大决策与控制系统仍然是一个重大挑战。在此背景下，强化学习（RL）成为一种极具前景的方法。然而，应用RL的主要方法存在一个核心困境：一方面，离线RL由于仅从固定数据集中学习，无法很好地适应现实世界条件；另一方面，在线RL需要通过现实世界的交互进行学习，这对驾驶来说本质上是不安全的。为了解决这些问题，本文提出了一种基于Transformer的离线到在线强化学习（TORL）框架。首先，该框架的离线学习范式将Transformer架构与最大熵机制相结合。这种协同方法使模型能够捕捉长期的时间依赖性，从而实现高性能的决策与控制，并确保初始策略的稳健性和泛化能力。在此基础上，框架在在线微调过程中采用了三种协同机制，包括人机循环（HITL）安全探索、混合回放缓冲区和混合数据源学习方法，以同时减轻分布变化导致的性能下降并消除在线探索的关键安全风险。在MetaDrive仿真环境中进行的全面实验表明，TORL优于基线方法， normalized return提高了约29.4%，任务成功率提高了46.1%，同时保持了零碰撞记录。此外，该框架的实时可行性已在实验性自动驾驶平台上得到验证，显示出适合实际部署的低计算延迟。本研究表明，所提出的离线到在线RL范式为开发高性能自动驾驶决策与控制系统提供了一种稳健有效的解决方案。

引言

自动驾驶（AD）中的决策与控制是指根据感知和预测模块提供的环境信息生成实时驾驶决策并输出相应控制指令的核心过程，从而引导车辆安全、平稳地完成驾驶任务（Liu等人，2024年）。在具有高度动态性和不确定性的复杂交通环境中，决策与控制系统面临着前所未有的挑战，尤其是在处理紧急情况、协调多车辆交互以及平衡安全性、交通效率和乘坐舒适性方面。

如图1所示，当前的决策与控制方法可以分为三大类：基于规则的方法、基于优化的方法和基于学习的方法。基于规则的方法依赖于人工设计的决策逻辑，通常包括有限状态机（Wang等人，2021年）、行为树（Banerjee，2018年）和专家系统（Wu等人，2023年）等经典范式。作为基于规则方法的典型代表，有限状态机可以精确匹配输入条件并通过预定义的规则集执行相应动作。然而，现实世界驾驶情况的近乎无限变异性意味着基于有限人类知识库构建的规则系统在覆盖范围上必然存在缺陷。因此，这些系统从根本上不适合满足实际应用中对彻底性和灵活性的严格要求。为了解决这些限制，研究人员提出了基于优化的方法：这些方法通过构建环境动态模型并将安全约束纳入其中，将决策与控制任务形式化为优化问题，并求解最优驾驶行为。例如，模型预测控制（MPC）通过滚动时域优化实现动态决策与控制（Richalet等人，1978年），而动态规划（DP）方法利用贝尔曼方程迭代计算最优策略（Lin等人，2023年）。这些方法凭借其精确的数学建模能力，在结构化道路场景中可以输出理论上的最优解，并表现出良好的控制性能。然而，这些方法严重依赖于精确的环境建模和准确的动态预测，同时也需要大量的计算资源。因此，在高度动态的场景中，基于优化的解决方案的有效性会显著降低，从而影响其准确性和实时性能。

鉴于上述方法在泛化能力和稳健性方面的挑战，近年来出现的基于学习的方法为AD提供了新的技术途径（Kiran等人，2021年）。这些方法可以从大规模驾驶数据中自动提取行为模式（Le Mero等人，2022年），学习适应不同交通场景的策略，从而摆脱对人工规则和高精度模型的依赖，并在复杂环境中展现出优越的泛化能力和动态适应性（Elallid等人，2022年）。在基于学习的策略中，强化学习（RL）作为一个核心研究方向，在AD中具有广泛的应用潜力（Kaelbling等人，1996年；Chu等人，2025年）。然而，其实际应用面临着一个根本性的困境：一方面，在线RL通过直接试错学习，存在不可接受的安全风险，并且在像AD这样的安全关键应用中成本过高（Lu等人，2025年）；另一方面，离线RL通过从预先收集的数据集中学习来确保安全性（Schrittwieser等人，2021年）。然而，这种范式依赖于静态数据，而静态数据本质上无法完全捕捉现实世界的复杂性，导致策略过于保守，泛化能力较差，面对新场景时性能显著下降（Levine等人，2020年；Fujimoto等人，2019年）。为了解决这些困境，我们认为离线到在线范式提供了一种理想的途径（Nair等人，2020年）。其核心思想是利用离线数据集的知识建立基础策略，从而规避在线探索的初始风险。这个预先建立的策略随后作为在线微调的稳健起点，适应现实世界环境，最终弥合了由分布变化引起的性能差距。

然而，传统的离线到在线RL框架在实践中往往失败，特别是在从离线切换到在线环境时表现出特别脆弱性。我们将这种脆弱性归因于分布变化这一核心挑战，我们认为这可能源于四个关键因素：首先，从孤立数据中进行的短视策略学习，阻碍了长期推理；其次，通过必要的但不安全的在线探索重新引入了安全风险；第三，在使用新的在线数据进行微调时，预训练的知识会发生灾难性遗忘；最后，在融合来自离线、在线和专家来源的异构数据时学习不稳定。为了解决上述四个问题，本文提出了一种基于Transformer的离线到在线强化学习（TORL）框架。主要贡献如下：

(1)
在离线RL阶段，通过将Transformer架构与最大熵机制相结合，我们的方法有效捕捉了必要的长期依赖性，同时保持了行为的灵活性，从而预先解决了在实时部署中通常导致失败的问题。
(2)
在在线RL阶段，我们的方法结合了人机循环（HITL）安全探索、混合回放缓冲区和混合数据源学习机制，以同时减轻分布变化导致的性能下降并消除在线探索的关键安全风险。

本文的其余部分安排如下：第2节描述了驾驶场景并正式定义了问题；第3节详细介绍了所提出的TORL框架，包括其核心Transformer架构、包含离线预训练和在线微调的训练流程；第4节介绍了全面的实验设置，并对实验结果进行了深入分析，包括与基线方法的比较和对关键超参数的消融研究；最后，第5节总结了本文并讨论了未来的工作。研究中使用的缩写列在表1中。

部分片段

驾驶场景

为了全面评估TORL框架在复杂决策与控制任务中的性能，本文基于MetaDrive仿真平台（Li等人，2022年）构建了一个异构驾驶场景。如图2所示，构建的地图依次由四个典型的地图模块组成：曲线、环岛、匝道和T型交叉路口，形成了一个结构多样性和动态特性强的复合道路网络。

TORL训练流程概述

为了实现高效的策略学习，我们提出的TORL训练流程如图4所示，将离线预训练与在线微调无缝结合。核心思想是利用静态专家数据集为代理的决策与控制建立坚实的基础，然后通过真实环境中的安全探索不断优化和提升其适应能力。

数据集收集与处理

在当前的数字环境中，联网车辆生成了海量且信息丰富的

结果与讨论

本节对所提出的TORL框架进行了全面的性能验证。为了确保方法论的严谨性，我们的评估分为四个连续阶段。首先，我们详细介绍了实验设置，包括评估指标和比较基准；其次，我们对TORL框架的核心性能进行了深入分析，检查了其离线预训练的效果和在线微调的动态特性；随后，我们进行了全面的性能

结论

本文提出了一种用于自动驾驶决策与控制的TORL框架。该框架解决了离线到在线RL范式中固有的所有挑战，包括在静态数据上预训练的策略的短视性、安全探索中的灾难性遗忘问题以及来自不同数据源的学习不稳定性。我们的工作表明，通过结合基于Transformer的离线学习

CRediT作者贡献声明

谭飞宏：撰写——原始草稿、可视化、方法论、概念化。卢平：验证、方法论、调查、概念化。张福林：撰写——原始草稿、可视化、验证、概念化。叶欣：监督、资源管理、概念化。胡波：撰写——审稿与编辑、撰写——原始草稿、方法论、概念化。舒星：撰写——审稿与编辑、撰写——原始草稿、方法论、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了重庆市自然科学基金的支持，项目编号为CSTB2023NSCQ-MSX0766和CSTB2023NSCQ-MSX0418。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号