
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向零样本可扩展协作的异构多智能体强化学习框架SHPPO研究
【字体: 大 中 小 】 时间:2025年06月22日 来源:Neurocomputing 5.5
编辑推荐:
为解决多智能体系统(MARL)中角色异构性与规模动态变化导致的策略迁移难题,清华大学团队提出新型框架SHPPO。该研究通过潜在网络学习策略模式,结合异构层实现参数共享架构下的个体间/时序异质性,在SMAC和GRF环境中验证了零样本可扩展协作优势,为动态场景下的智能体协同提供了新范式。
在人工智能蓬勃发展的今天,多智能体系统(Multi-Agent Systems, MAS)正深刻重塑着自动驾驶网络、智能交通等关键领域。然而现实场景中的智能体往往具有不同功能角色,系统规模还会动态波动——比如早晚高峰时路口的车辆数量剧变。传统多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)方法面临严峻挑战:固定规模的同质化策略难以适应动态场景,而独立建模每个智能体又会导致参数爆炸。如何让智能体像人类球队般,既能根据成员特点灵活分工,又能随时应对人员增减,成为实现零样本可扩展协作(zero-shot scalable collaboration)的核心难题。
清华大学团队在《Neurocomputing》发表的这项研究,创新性地提出了SHPPO框架。该工作融合近端策略优化(Proximal Policy Optimization, PPO)与异构学习机制,通过潜在网络自适应生成策略参数,在星际争霸(SMAC)和谷歌足球(GRF)等复杂环境中,首次实现了参数共享架构下的双重异构性——智能体间策略差异(inter-individual heterogeneity)与策略时序演化(temporal heterogeneity)。实验表明,训练好的模型可直接迁移到不同规模的新场景,攻击阵型会随团队规模自动重组,展现出类人的动态协作智慧。
关键技术包括:1) 构建潜在网络-推理网的对称架构学习策略模式;2) 在共享参数网络中插入异构层实现可扩展异质性;3) 通过SMAC和GRF环境设计可扩展协作验证任务。
【MARL for collaboration】
研究指出现有方法如QMIX和MADDPG难以平衡扩展性与异质性。HAPPO虽提升角色差异但无法扩展,MAPPO共享参数却牺牲策略多样性。
【DEC-POMDP】
基于马尔可夫博弈理论,建立包含N个智能体的决策模型,定义状态空间S、联合动作空间A及奖励函数r,为异构策略学习提供数学基础。
【Scalable and heterogeneous MARL】
SHPPO核心创新在于:1) 潜在变量编码策略模式;2) 异构层参数动态生成;3) 双重异构性融合。如图2所示,智能体通过观察历史生成独特策略,前锋与后卫角色可随战况自动切换。
【Environments and metrics】
在SMAC的6m_vs_8z和GRF的3v1场景测试中,SHPPO胜率达82.5%,较MAPPO提升37%。图6显示当团队从5人扩至8人时,潜在空间自动聚类出新角色分配模式。
【Conclusion】
该研究突破性地证明:1) 潜在学习可实现策略模式迁移;2) 异构层能在共享架构中保持多样性;3) 双重异质性显著提升零样本扩展能力。作者Xudong Guo等开创的SHPPO框架,为动态开放环境下的智能体协作提供了普适性解决方案,其可视化潜在空间更为可解释AI研究开辟了新路径。
生物通微信公众号
知名企业招聘