验证在线安全特性以确保深度强化学习的安全性

《ACM Transactions on Intelligent Systems and Technology》:Verifying Online Safety Properties for Safe Deep Reinforcement Learning

【字体: 时间:2025年11月08日 来源:ACM Transactions on Intelligent Systems and Technology

编辑推荐:

  安全强化学习方法通过违反值量化与形式验证结合,解决传统方法样本效率低和收敛性差的问题。实验表明该方法在减少不安全状态访问的同时提升性能。

  

摘要

确保强化学习(RL)的安全性对于在实际应用中部署智能体至关重要。在训练过程中,现有的安全RL方法通常依赖于指示性成本函数,这些函数提供的反馈信息较为有限,从而导致两个主要问题:(i)由于缺乏邻近状态的安全性信息,样本效率低下;(ii)对成本-价值函数的依赖性导致收敛过程不稳定,性能不佳。训练完成后,虽然可以通过深度神经网络的形式化验证方法(FV)来保证安全性,但这些方法的计算复杂性限制了其在训练过程中的应用。为了解决使用成本函数所带来的问题,我们提出了一种基于“违规”值的安全RL方法——该值反映了策略决策在状态空间某部分所伴随的风险。我们的方法会验证可能导致不安全行为的“安全属性”(即状态-动作对),并量化存在这些违规的状态空间的大小。随后在训练过程中利用该违规值对智能体进行惩罚,以鼓励其采取更安全的策略行为。鉴于FV的NP难特性,我们提出了一种基于概率保证的、高效且基于样本的近似计算方法来计算违规值。在标准基准测试和真实世界机器人导航任务上的大量实验表明,采用违规值增强的方法能够显著提高安全性,减少不安全状态的出现,并且相较于现有方法展现出更优的性能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号