动态深度因子图在多智能体强化学习中的应用
《IEEE Transactions on Pattern Analysis and Machine Intelligence》:Dynamic Deep Factor Graph for Multi-Agent Reinforcement Learning
【字体:
大
中
小
】
时间:2025年11月25日
来源:IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6
编辑推荐:
动态深度因子图有效协调多智能体强化学习中的复杂协作,通过在线生成因子图结构实现任务自适应,结合最大和推理提升计算效率,理论分析误差与计算平衡关系,实验验证其在高阶捕食者-猎物和SMAC任务中的优越性。
摘要:
多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)需要多个决策智能体之间的有效协作以实现共同目标。基于全局价值函数的方法会面临维度灾难(curse of dimensionality)的问题,而完全分解后的集中式训练结合分布式执行(Centralized Training with Decentralized Execution, CTDE)方法则常常会出现过度泛化(relative overgeneralization)的问题。协调图(coordination graphs)可以缓解这一问题,但通常无法捕捉随时间和任务变化而发展的动态协作模式。我们提出了动态深度因子图(Dynamic Deep Factor Graphs, DDFG),这是一种通过因子图表示全局价值,并通过图生成策略动态学习图结构的算法,能够适应智能体之间关系的变化。我们给出了高阶分解近似误差的理论上限,并探讨了最大分解阶数如何在对精度和计算成本之间进行权衡,为平衡性能和成本提供了指导。利用最大和(max-sum)算法进行推理,DDFG能够高效地生成联合策略。在更高阶的捕食者-猎物(predator–prey)模型和SMAC任务上的实验表明,与传统的价值分解方法相比,DDFG在样本效率和鲁棒性方面均有显著提升。代码可访问:https://github.com/SICC-Group/DDFG。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号