面向零样本可扩展协作的异构多智能体强化学习框架SHPPO研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月22日 来源：Neurocomputing 5.5

编辑推荐：

　　为解决多智能体系统(MARL)中角色异构性与规模动态变化导致的策略迁移难题，清华大学团队提出新型框架SHPPO。该研究通过潜在网络学习策略模式，结合异构层实现参数共享架构下的个体间/时序异质性，在SMAC和GRF环境中验证了零样本可扩展协作优势，为动态场景下的智能体协同提供了新范式。

在人工智能蓬勃发展的今天，多智能体系统(Multi-Agent Systems, MAS)正深刻重塑着自动驾驶网络、智能交通等关键领域。然而现实场景中的智能体往往具有不同功能角色，系统规模还会动态波动——比如早晚高峰时路口的车辆数量剧变。传统多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)方法面临严峻挑战：固定规模的同质化策略难以适应动态场景，而独立建模每个智能体又会导致参数爆炸。如何让智能体像人类球队般，既能根据成员特点灵活分工，又能随时应对人员增减，成为实现零样本可扩展协作(zero-shot scalable collaboration)的核心难题。

清华大学团队在《Neurocomputing》发表的这项研究，创新性地提出了SHPPO框架。该工作融合近端策略优化(Proximal Policy Optimization, PPO)与异构学习机制，通过潜在网络自适应生成策略参数，在星际争霸(SMAC)和谷歌足球(GRF)等复杂环境中，首次实现了参数共享架构下的双重异构性——智能体间策略差异(inter-individual heterogeneity)与策略时序演化(temporal heterogeneity)。实验表明，训练好的模型可直接迁移到不同规模的新场景，攻击阵型会随团队规模自动重组，展现出类人的动态协作智慧。

关键技术包括：1) 构建潜在网络-推理网的对称架构学习策略模式；2) 在共享参数网络中插入异构层实现可扩展异质性；3) 通过SMAC和GRF环境设计可扩展协作验证任务。

【MARL for collaboration】
研究指出现有方法如QMIX和MADDPG难以平衡扩展性与异质性。HAPPO虽提升角色差异但无法扩展，MAPPO共享参数却牺牲策略多样性。

【DEC-POMDP】
基于马尔可夫博弈理论，建立包含N个智能体的决策模型，定义状态空间S、联合动作空间A及奖励函数r，为异构策略学习提供数学基础。

【Scalable and heterogeneous MARL】
SHPPO核心创新在于：1) 潜在变量编码策略模式；2) 异构层参数动态生成；3) 双重异构性融合。如图2所示，智能体通过观察历史生成独特策略，前锋与后卫角色可随战况自动切换。

【Environments and metrics】
在SMAC的6m_vs_8z和GRF的3v1场景测试中，SHPPO胜率达82.5%，较MAPPO提升37%。图6显示当团队从5人扩至8人时，潜在空间自动聚类出新角色分配模式。

【Conclusion】
该研究突破性地证明：1) 潜在学习可实现策略模式迁移；2) 异构层能在共享架构中保持多样性；3) 双重异质性显著提升零样本扩展能力。作者Xudong Guo等开创的SHPPO框架，为动态开放环境下的智能体协作提供了普适性解决方案，其可视化潜在空间更为可解释AI研究开辟了新路径。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号