学习关注并重新排序:大规模多智能体系统中的可扩展策略优化

《Neurocomputing》:Learning to attend and reorder: Scalable policy optimization in large-scale multi-agent systems

【字体: 时间:2026年01月12日 来源:Neurocomputing 6.5

编辑推荐:

  针对大规模多智能体强化学习中的可扩展性问题,本文提出SAMPO框架,通过选择性注意力机制动态筛选关键实体信息,结合中心化批评家优化策略,有效降低状态空间复杂度,在百级智能体协同任务中显著优于现有基线方法。

  
冯照轩|肖伟|孙健|陈杰|王刚
北京工业大学自动化学院,北京,100081,中国

摘要

在多智能体强化学习(MARL)中,可扩展性是一个核心挑战,因为现实世界的应用通常需要数十到数百个智能体之间的协作。随着多智能体系统(MAS)规模的扩大,其固有的困难——部分可观测性、非稳定性和复杂的智能体间依赖性——变得越来越明显。现有的方法通常通过鼓励分组或分层合作来实现可扩展性,但它们的灵活性有限——这源于任务特定的先验条件,如预定义的角色结构、固定的子任务视野或可感知的子任务边界——使得它们的性能严重依赖于精心设计的内容,从而限制了它们在大规模MAS中的有效性。为了解决这些限制,我们提出了选择性注意力增强多智能体策略优化(SAMPO),这是一个简洁而有效的可扩展多智能体策略学习框架。SAMPO利用注意力分数来重新排序每个智能体的观测结果,从而以简单的方式实现排列不变性,进而降低观测空间的复杂性。这种设计显著提高了涉及数百个智能体的协作任务的学习效率。此外,SAMPO引入了一种选择机制,即根据每个智能体的内部状态动态确定注意力参数矩阵,从而注入非线性并大大增强了注意力编码的表达能力。凭借这些设计,SAMPO消除了对广泛手动调整和精心设计的协作结构的需求,在大规模多智能体任务中表现出色。实证结果表明,在统一的超参数设置下,SAMPO在各种规模的SMAC环境中始终优于现有的最佳方法,包括那些涉及数百个智能体的任务。

引言

多智能体强化学习(MARL)已成为协调多智能体系统(MAS)中智能体行为的中心范式[2],[39]。MARL已成功应用于多个领域,包括自动驾驶[29]、纸牌游戏[40]、交通灯优化[17]和群体轨迹规划[15]。MARL的快速进展突显了其在促进智能体之间复杂互动方面的潜力,因此吸引了学术界和工业界的广泛关注。
与单智能体任务相比,多智能体场景的强化学习面临新的挑战,主要是由于两个主要原因。首先,在多智能体环境中,全局状态转换取决于所有智能体的行为,每个智能体都在同时学习和适应。这种相互依赖性导致从任何单个智能体的角度来看都是非稳定的动态。其次,智能体通常在部分可观测性的条件下运行,只能访问关于环境和其他智能体的局部有限信息。这些因素违反了强化学习中通常假设的马尔可夫性质,显著增加了策略学习过程的复杂性。为了解决这些问题,集中训练与分散执行(CTDE)范式已成为广泛采用的解决方案[20]。在CTDE中,一个使用全局信息进行训练的集中式评论家指导分散式策略学习,允许智能体在执行时基于局部观测结果进行行动。该框架在基于策略的[3]、[18]、[35]和基于价值的[23]、[26]、[27]、[28]、[31]、[36]、[38]等多种复杂协调任务中展示了强大的实证性能。
尽管基于CTDE范式的MARL方法取得了显著的成功,但随着智能体数量的增加,它们的可扩展性仍然受到限制,因为指数级扩展的联合状态-动作空间引发了维度灾难,严重影响了学习效率[14]。全局状态以及单个智能体的观测和动作空间的复杂性迅速增加,加剧了非稳定性和部分可观测性这些已经存在的问题。因此,实现可扩展性已成为MARL中的一个关键挑战。
一些先前的工作试图通过分解观测或动作空间来缓解可扩展性问题。例如,MACC[37]将全局目标分解为多个子任务,并通过注意力将它们聚合起来以强调任务相关性。然而,它假设了对任务分解的先验知识,并且在观测缺失时依赖于推断的子任务状态,这削弱了灵活性,并且随着MAS规模的扩大,部分可观测性的增加而放大了推理错误。DCC也分解了协作任务并将子任务分配给智能体,但采用了一种分层协调策略,限制了智能体内部和智能体之间的互动,以减少联合状态-动作空间的有效维度[13]。相比之下,它不仅像MACC那样依赖于先前的任务分解,还受到扩展的子任务空间和日益不稳定的互信息正则化的困扰,这两者都会随着智能体数量的增加而加剧。RODE和ACORM通过将动作聚类到固定数量的角色特定空间中来追求可扩展性[7]、[32]。但由于角色数量必须预先确定,并且在短暂的预训练阶段后聚类的角色动作空间被冻结,其性能对角色数量非常敏感,而且随着更大规模设置中动作多样性的增加,聚类往往会退化为完整的动作集,从而消除了搜索空间的减少,降低了可扩展性。
排列不变性是一种有前景的方法,可以减少MARL中的空间复杂性并实现可扩展性。具体来说,我们所说的空间复杂性是指多智能体环境中观测空间相对于实体数量的组合增长。当每个智能体的观测结果是通过按固定顺序连接所有实体的特征构建时,观测空间的大小会随着实体数量的增加而扩大。然而,由于底层环境结构本质上是顺序无关的,实体的种可能排列编码了没有语义差异的冗余信息。因此,减少这些冗余排列可以有效地将空间复杂性降低大约倍。HPN采用排列不变的网络来编码观测集,并进一步将动作空间分解为排列不变和排列等变的部分,利用任务对称性来降低动作建模的结构复杂性并提高可扩展性[6]。尽管如此,HPN由于排列不变的池化而过度平滑,平均了关键实体信息,掩盖了高阶互动,导致随着智能体数量或观测实体数量的增加而出现状态-动作值估计的不确定性。ConcNet使用硬注意力来显式重新排序和截断原始观测输入,仅保留每个智能体认为最相关的实体特征[4]。虽然这减少了冗余,但它不可避免地丢弃了可能有用的上下文信息,而且缺乏全局评论家进一步导致随着实体数量的增加而学习不稳定。
受到排列不变性原理的启发,我们提出了选择性注意力增强多智能体策略优化(SAMPO),这是一种通过根据相关性重新排序观测实体来减少观测复杂性并提高大规模多智能体协作可扩展性的方法。SAMPO的灵感来自于这样一个洞察:在许多现实世界任务中,智能体的成功往往主要取决于一小部分相关实体和子任务。例如,在战场场景中,一个小队只需要考虑附近的敌人和目标,而不是整个战场。重要的是,SAMPO保留了CTDE范式,使用共享的集中式评论家来利用全局状态信息进行准确的值估计。我们在标准的部分可观测基准StarCraftII多智能体挑战(SMAC)[24]上评估了SAMPO,该挑战涵盖了具有不同复杂性和观测噪声的各种对抗任务。实验结果表明,SAMPO在各种协作规模上始终优于现有的最佳方法,并且在极端观测干扰下保持了鲁棒性。

章节片段

多智能体策略优化

尽管在单智能体设置中的策略优化已经取得了显著的成功[43],但在多智能体设置中优化协作策略仍然具有很高的挑战性。强化学习提供了一种有效的方法来解决这些问题。直接将单智能体强化学习方法应用于多智能体环境被发现效率低下。由于可扩展性的巨大潜力,CTDE框架已成为最受欢迎的解决方案

分散式部分可观测马尔可夫决策过程

在协作多智能体任务的背景下,该场景可以被构建为一个分散式部分可观测马尔可夫决策过程(Dec-POMDP)。与环境相关的所有任务组件都包含在元组中,其中代表整个MAS和环境的状态,是与其他实体相关的表示,是与子任务相关的表示,表示包括智能体和其他目标在内的所有实体的总集

用于可扩展多智能体策略优化的选择性注意力

尽管MARL在多种多智能体任务中取得了实质性成功,但在大规模设置中仍然受到可扩展性挑战的限制。随着智能体数量的增加,联合状态-动作空间呈指数级扩展,使得策略学习变得越来越难以处理。此外,个体的有限观测范围进一步加剧了策略的不稳定性。
在这项工作中,提出了一种名为SAMPO的新方法,用于处理呈指数级增长的观测空间

基准与基线

有几个流行的MARL测试平台,如多智能体粒子世界环境(MPE)[18]、SMAC、Google研究足球(GRF)[12]、Hanabi[1]和多智能体MuJoCo[21]。Hanabi中的智能体数量为,GRF中的智能体数量为,多智能体MuJoCo中的智能体数量为,而MPE和SMAC可以处理多达数百个智能体。考虑到MAPPO的主要挑战,本工作中选择了SMAC作为测试平台。选择了SMAC标准地图中的任务,其中包含个盟友和个敌人

结论

在本文中,我们提出了SAMPO,这是一种新架构,它将选择性注意力机制与集中式评论家相结合,以增强包含多达数百个智能体的MAS的多智能体策略优化。每个智能体首先使用选择机制将其观测结果分解为自条件特征表示,然后使用点积注意力模块根据相关性对其进行定量评估和重新排序,有效地降低了维度和复杂性

CRediT作者贡献声明

冯照轩:撰写 – 审稿与编辑,撰写 – 原始草稿,软件,方法论,概念化。肖伟:撰写 – 原始草稿,数据整理。孙健:撰写 – 原始草稿。陈杰:撰写 – 原始草稿。王刚:撰写 – 审稿与编辑,撰写 – 原始草稿。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
王刚报告称获得了中国国家自然科学基金的财政支持。如果有其他作者,他们声明没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本工作部分得到了中国国家自然科学基金(项目编号62173034、U23B2059和62088101)的支持。
冯照轩于2018年在中国汕头大学机械工程系获得学士学位,2021年在北京邮电大学获得硕士学位。目前,他正在北京工业大学自动化学院攻读博士学位。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号