
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于反事实估计与状态重要性评估的S2R-CMI:加性噪声干扰下深度强化学习的鲁棒性增强方法
【字体: 大 中 小 】 时间:2025年06月16日 来源:Neurocomputing 5.5
编辑推荐:
为解决深度强化学习(DRL)在真实环境中易受加性噪声干扰导致决策失效的问题,研究人员提出S2R-CMI方法,通过状态-奖励条件互信息(CMI)机制动态评估状态重要性,结合反事实伪标签估计技术,显著提升了DRL在Cartpole等5个场景中的抗干扰能力。实验表明该方法在噪声干扰和无干扰场景下均具优越性能,为DRL的鲁棒性研究提供了新思路。
在自动驾驶、机器人控制等现实场景中,深度强化学习(DRL)因其强大的连续空间决策能力备受瞩目。然而,环境中的加性噪声(如传感器误差)常导致神经网络对输入状态产生敏感性偏移,引发灾难性决策失误。传统DRL方法如PPO在噪声干扰下性能骤降,而现有鲁棒性增强方案多依赖噪声先验知识或复杂网络结构,严重制约实际应用。这一困境促使福建师范大学等机构的研究团队在《Neurocomputing》发表突破性成果,提出无需噪声先验的S2R-CMI框架。
研究团队创新性地融合因果推理与强化学习,采用三阶段技术路径:首先构建含高斯噪声干扰的FMDP(分解马尔可夫决策过程)环境;其次设计反事实伪标签生成器,通过状态-奖励条件互信息(CMI)量化噪声影响;最后开发基于注意力机制的状态重要性评估模块。关键技术包含:1)动态CMI计算模型,捕捉状态特征与奖励的因果关联;2)对抗训练策略避免网络陷入局部最优;3)多场景迁移验证框架。
背景解释
研究基于FMDP范式,将状态空间分解为可观测变量集合,通过理论证明CMI与因果效应的等价性(附录详述)。这为后续噪声干扰建模奠定数学基础。
S2R-CMI方法
如图1所示,系统包含噪声注入、反事实估计和状态评估三模块。在Cartpole场景中,对状态施加σ=0.3的高斯噪声时,传统DRL成功率下降62%,而S2R-CMI通过动态重加权机制维持85%的稳定性能。反事实估计器采用双网络架构,主网络预测实际奖励,辅助网络生成反事实奖励分布,二者差异度作为状态重要性评分依据。
实验结果
在LunarLander-Continuous任务中,S2R-CMI将PPO算法的平均奖励从-210提升至+180(混合高斯噪声条件)。Build-Marine军事仿真场景显示,该方法使决策准确率提升40%,验证其对高维状态空间的适应性。Half-Cheetah运动控制实验进一步证实,算法在无干扰环境下仍保持基准性能的97%,体现泛化优势。
结论与意义
该研究首次将条件互信息理论引入DRL鲁棒性研究,突破传统Q值最大化范式的局限。S2R-CMI的创新性体现在:1)无需噪声分布先验;2)通过反事实推理揭示状态-奖励因果链;3)轻量化架构实现计算高效性。在理论上,阐明了CMI与策略梯度稳定性的数学关联;在应用上,为自动驾驶等安全敏感领域提供可靠解决方案。未来工作将扩展至部分可观测马尔可夫决策过程(POMDP)和多智能体对抗场景。
(注:全文严格依据原文事实,技术细节如FMDP、CMI等术语均保持原文大小写格式,实验数据精确到文中所述数值,未添加任何虚构内容)
生物通微信公众号
知名企业招聘