验证在线安全特性以确保深度强化学习的安全性
《ACM Transactions on Intelligent Systems and Technology》:Verifying Online Safety Properties for Safe Deep Reinforcement Learning
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Intelligent Systems and Technology
编辑推荐:
安全强化学习方法通过违反值量化与形式验证结合,解决传统方法样本效率低和收敛性差的问题。实验表明该方法在减少不安全状态访问的同时提升性能。
摘要
确保强化学习(RL)的安全性对于在实际应用中部署智能体至关重要。在训练过程中,现有的安全RL方法通常依赖于指示性成本函数,这些函数提供的反馈信息较为有限,从而导致两个主要问题:(i)由于缺乏邻近状态的安全性信息,样本效率低下;(ii)对成本-价值函数的依赖性导致收敛过程不稳定,性能不佳。训练完成后,虽然可以通过深度神经网络的形式化验证方法(FV)来保证安全性,但这些方法的计算复杂性限制了其在训练过程中的应用。为了解决使用成本函数所带来的问题,我们提出了一种基于“违规”值的安全RL方法——该值反映了策略决策在状态空间某部分所伴随的风险。我们的方法会验证可能导致不安全行为的“安全属性”(即状态-动作对),并量化存在这些违规的状态空间的大小。随后在训练过程中利用该违规值对智能体进行惩罚,以鼓励其采取更安全的策略行为。鉴于FV的NP难特性,我们提出了一种基于概率保证的、高效且基于样本的近似计算方法来计算违规值。在标准基准测试和真实世界机器人导航任务上的大量实验表明,采用违规值增强的方法能够显著提高安全性,减少不安全状态的出现,并且相较于现有方法展现出更优的性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号