基于因果发现与伪相关检测的分布式分层强化学习D3HRL:解决延迟效应与伪相关挑战的新方法
《Neural Networks》:D3HRL: A Distributed Hierarchical Reinforcement Learning Approach Based on Causal Discovery and Spurious Correlation Detection
【字体:
大
中
小
】
时间:2025年11月04日
来源:Neural Networks 6.3
编辑推荐:
本文针对分层强化学习(HRL)在长时序决策任务中面临的延迟效应和伪相关两大挑战,提出了一种基于因果发现和伪相关检测的分布式HRL方法D3HRL。研究人员通过建模延迟效应为跨时间跨度因果关系、采用条件独立性检验剔除伪相关、基于真实因果关系构建分层策略三个模块的迭代执行,在2D-MineCraft和MiniGrid环境中的实验表明,该方法能准确识别异质性延迟因果效应(最多16步延迟),有效消除四类典型伪相关,显著提升长时序任务的学习效率与决策可靠性,为HRL与因果推理的结合提供了新范式。
在人工智能领域,智能体如何像人类一样进行长时序的复杂决策一直是个核心挑战。想象一下,当你按下论文投稿按钮后,需要等待数月才能收到回复——这种动作与结果之间的"延迟效应",正是现实决策的常态。而更棘手的是,决策过程中充斥着大量虚假关联:比如火灾现场出动消防车与人员伤亡常同时出现,但若误将这种相关当作因果,智能体或许会荒谬地认为派出消防车会导致伤亡而拒绝救援。现有分层强化学习(HRL)方法虽能通过技能抽象(如option)或目标分解(如goal)处理长任务,但依然难以精准捕捉动作效果的延迟特性,且易被数据中的伪相关误导。
发表于《Neural Networks》的这项研究,直面HRL领域的这两大痛点,提出了名为D3HRL的创新框架。该工作首次将延迟因果效应结构化地融入子目标级决策,通过因果发现与伪相关检测的分布式迭代,使智能体逐步挖掘任务背后的真实因果链。实验证明,在2D-MineCraft和MiniGrid等结构化长时序环境中,D3HRL不仅能识别长达16步的延迟效应,还能有效过滤四类典型伪相关,显著提升学习效率与决策可靠性。
关键技术方法主要包括:基于反向数据收集策略的环境交互机制、分布式结构因果模型(SCM)训练框架、针对时间序列数据的条件独立性检验算法,以及基于因果子目标的分层策略网络构建技术。研究在2D-MineCraft的GetIron/GetSilverore任务和MiniGrid的Fire2Burn/Wood2Wet任务中进行验证,这些环境均具有明确的语义化状态表征和稀疏奖励特性。
研究将延迟效应建模为跨时间跨度的因果关系,创新性地采用分布式因果发现机制并行学习不同时间跨度下的因果联系。通过显式恢复异质性延迟因果影响,为因果时序抽象提供理论基础,实现分层强化学习中的精准时序信用分配。
通过条件独立性检验筛选真实因果关系并确定其准确时间跨度。该模块能过滤误导性统计关联,确保分层策略从因果有效的依赖关系中学习,而非伪相关,从而提升长时序决策的可靠性。
基于识别出的因果关系构建分层策略网络并训练子目标。通过使用符合异质性延迟特性的因果意义子目标,增强策略可解释性并支持有原则的时序抽象。
在2D-MineCraft和MiniGrid环境中的实验表明,D3HRL能准确恢复延迟因果效应,在较大规模任务中检测到最多8步延迟,小规模任务中至少16步延迟。同时能有效消除间接因果链、自相关偏差、隐藏混淆因子和噪声诱发关联四类伪相关。
D3HRL通过整合分布式因果发现与伪相关检测,为解决HRL中的延迟效应和伪相关挑战提供了新思路。该方法在结构化长时序环境中展现出精准的因果关系识别能力和稳定的性能表现,为构建更可信、可泛化的长时序决策系统奠定了基础。未来工作可探索更复杂的动态环境中的应用,进一步推动因果推理与分层强化学习的交叉发展。
值得注意的是,研究团队在论文准备过程中使用了Qwen进行语法检查和文本优化,但所有内容均经过作者严格审核。该研究由国家自然科学基金(91948303)资助,作者声明无利益冲突。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号