面向零样本可扩展协作的异构多智能体强化学习框架SHPPO研究

【字体: 时间:2025年06月22日 来源:Neurocomputing 5.5

编辑推荐:

  为解决多智能体系统(MARL)中角色异构性与规模动态变化导致的策略迁移难题,清华大学团队提出新型框架SHPPO。该研究通过潜在网络学习策略模式,结合异构层实现参数共享架构下的个体间/时序异质性,在SMAC和GRF环境中验证了零样本可扩展协作优势,为动态场景下的智能体协同提供了新范式。

  

在人工智能蓬勃发展的今天,多智能体系统(Multi-Agent Systems, MAS)正深刻重塑着自动驾驶网络、智能交通等关键领域。然而现实场景中的智能体往往具有不同功能角色,系统规模还会动态波动——比如早晚高峰时路口的车辆数量剧变。传统多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)方法面临严峻挑战:固定规模的同质化策略难以适应动态场景,而独立建模每个智能体又会导致参数爆炸。如何让智能体像人类球队般,既能根据成员特点灵活分工,又能随时应对人员增减,成为实现零样本可扩展协作(zero-shot scalable collaboration)的核心难题。

清华大学团队在《Neurocomputing》发表的这项研究,创新性地提出了SHPPO框架。该工作融合近端策略优化(Proximal Policy Optimization, PPO)与异构学习机制,通过潜在网络自适应生成策略参数,在星际争霸(SMAC)和谷歌足球(GRF)等复杂环境中,首次实现了参数共享架构下的双重异构性——智能体间策略差异(inter-individual heterogeneity)与策略时序演化(temporal heterogeneity)。实验表明,训练好的模型可直接迁移到不同规模的新场景,攻击阵型会随团队规模自动重组,展现出类人的动态协作智慧。

关键技术包括:1) 构建潜在网络-推理网的对称架构学习策略模式;2) 在共享参数网络中插入异构层实现可扩展异质性;3) 通过SMAC和GRF环境设计可扩展协作验证任务。

【MARL for collaboration】
研究指出现有方法如QMIX和MADDPG难以平衡扩展性与异质性。HAPPO虽提升角色差异但无法扩展,MAPPO共享参数却牺牲策略多样性。

【DEC-POMDP】
基于马尔可夫博弈理论,建立包含N个智能体的决策模型,定义状态空间S、联合动作空间A及奖励函数r,为异构策略学习提供数学基础。

【Scalable and heterogeneous MARL】
SHPPO核心创新在于:1) 潜在变量编码策略模式;2) 异构层参数动态生成;3) 双重异构性融合。如图2所示,智能体通过观察历史生成独特策略,前锋与后卫角色可随战况自动切换。

【Environments and metrics】
在SMAC的6m_vs_8z和GRF的3v1场景测试中,SHPPO胜率达82.5%,较MAPPO提升37%。图6显示当团队从5人扩至8人时,潜在空间自动聚类出新角色分配模式。

【Conclusion】
该研究突破性地证明:1) 潜在学习可实现策略模式迁移;2) 异构层能在共享架构中保持多样性;3) 双重异质性显著提升零样本扩展能力。作者Xudong Guo等开创的SHPPO框架,为动态开放环境下的智能体协作提供了普适性解决方案,其可视化潜在空间更为可解释AI研究开辟了新路径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号