基于大语言模型增强的分层强化学习框架提升自动驾驶拟人化决策能力

【字体: 时间:2025年07月01日 来源:Expert Systems with Applications 7.5

编辑推荐:

  为解决自动驾驶在罕见但安全关键场景中泛化能力不足的问题,研究人员提出LLM(Large Language Model)增强的HRL(Hierarchical Reinforcement Learning)框架,通过语义理解和常识推理生成长期目标点与元动作指导RL策略学习,结合GGT(Goal Gradient-based Transfer)机制和人类偏好优化的奖励设计,在CARLA仿真中显著提升系统泛化性、可解释性及人机协同性。

  

自动驾驶技术近年来快速发展,但面对复杂多变的真实道路环境,传统数据驱动的强化学习(Reinforcement Learning, RL)方法仍存在明显短板。尤其在遇到罕见却关乎安全的"长尾场景"时——比如突然出现的救护车或闯入道路的交警——这些系统往往表现不佳。问题的根源在于,RL算法缺乏人类驾驶员与生俱来的常识推理和情境理解能力。当一辆自动驾驶汽车看到路边静止的交警时,若无法理解其与普通行人的本质差异,就可能酿成事故。

如何让机器像人类一样"读懂"道路场景并做出合理决策?这一挑战随着大语言模型(Large Language Model, LLM)的兴起出现了转机。LLM通过海量文本训练获得了丰富的常识知识,能够理解复杂场景的语义信息。但LLM自身也存在响应速度慢、难以实时控制车辆的缺陷。受人类大脑与小脑协同工作的启发,研究人员创新性地提出将LLM的认知优势与RL的实时控制能力相结合的分层框架。

这项发表在《Expert Systems with Applications》的研究由国内团队完成,通过LLM作为高层"大脑"解析驾驶场景文本描述,生成包含长期目标点、元动作和解释说明的三元组输出;底层则采用强化学习(RL)作为"小脑"执行实时控制。为解决两者间的时空尺度不匹配问题,研究团队设计了目标梯度迁移(Goal Gradient-based Transfer, GGT)机制,在策略网络中显式嵌入朝向LLM目标的梯度信号。此外,通过人类专家对轨迹对的偏好排序优化LLM生成的多样化奖励函数,确保驾驶行为符合人类价值观。

关键技术方法包括:(1)构建分层架构:LLM以1Hz频率更新高层决策,RL以10Hz执行底层控制;(2)GGT机制:在RL策略网络的潜在空间引入目标梯度;(3)人类偏好奖励设计:LLM生成候选奖励函数,通过Bradley-Terry模型优化选择;(4)在CARLA仿真平台构建包含12种罕见场景的测试集。

【Hierarchical reinforcement learning for decision-making】
研究证实分层架构能有效分解决策复杂度。相比端到端RL,高层LLM提供的语义指导使碰撞率降低47%,在施工区绕行等任务中成功率提升2.3倍。

【Learning the LLM-generated high-level decisions】
GGT机制显著缓解目标稀疏性问题,使策略收敛速度加快60%。分析表明,潜在空间梯度与原始奖励信号形成互补:前者引导宏观方向,后者优化微观动作。

【Experiments】
在包含救护车优先通行等12类罕见场景的测试中,该框架成功率(89.7%)显著优于传统HRL(62.4%)和纯RL(51.2%)。解释性分析显示,83%的LLM决策被人类专家评为"合理",且生成的文本解释有助于追溯系统行为逻辑。

研究结论指出,LLM与RL的脑启发协同架构为自动驾驶决策系统带来三重突破:(1)通过常识推理填补数据分布空白,提升对罕见场景的泛化能力;(2)GGT机制开创性地桥接语义目标与连续控制;(3)人机协同奖励设计确保技术伦理对齐。该框架为复杂动态环境中的智能决策提供了可扩展范式,其分层思想也可迁移至机器人、医疗诊断等领域。未来工作将探索多模态LLM输入和分布式强化学习的结合,以进一步提升系统鲁棒性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号