验证在线安全特性以确保深度强化学习的安全性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：Verifying Online Safety Properties for Safe Deep Reinforcement Learning

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　安全强化学习方法通过违反值量化与形式验证结合，解决传统方法样本效率低和收敛性差的问题。实验表明该方法在减少不安全状态访问的同时提升性能。

摘要

确保强化学习（RL）的安全性对于在实际应用中部署智能体至关重要。在训练过程中，现有的安全RL方法通常依赖于指示性成本函数，这些函数提供的反馈信息较为有限，从而导致两个主要问题：（i）由于缺乏邻近状态的安全性信息，样本效率低下；（ii）对成本-价值函数的依赖性导致收敛过程不稳定，性能不佳。训练完成后，虽然可以通过深度神经网络的形式化验证方法（FV）来保证安全性，但这些方法的计算复杂性限制了其在训练过程中的应用。为了解决使用成本函数所带来的问题，我们提出了一种基于“违规”值的安全RL方法——该值反映了策略决策在状态空间某部分所伴随的风险。我们的方法会验证可能导致不安全行为的“安全属性”（即状态-动作对），并量化存在这些违规的状态空间的大小。随后在训练过程中利用该违规值对智能体进行惩罚，以鼓励其采取更安全的策略行为。鉴于FV的NP难特性，我们提出了一种基于概率保证的、高效且基于样本的近似计算方法来计算违规值。在标准基准测试和真实世界机器人导航任务上的大量实验表明，采用违规值增强的方法能够显著提高安全性，减少不安全状态的出现，并且相较于现有方法展现出更优的性能。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号