多智能体协作-竞争自适应框架MRDG:基于多检索与动态生成的通用化智能体建模研究

【字体: 时间:2025年07月03日 来源:Neurocomputing 5.5

编辑推荐:

  为解决多智能体系统(MAS)中智能体面对未知队友/对手时的适应难题,北京邮电大学团队提出Agent Collaborative-Competitive Adaptation (ACCA)框架及Multi-Retrieval and Dynamic Generation (MRDG)方法。通过行为轨迹建模、超网络参数动态调整和视角对齐模块,实现在SMAC、Overcooked-AI等复杂场景中与陌生智能体的高效协作与竞争,为通用智能体研究开辟新方向。

  

在星际争霸多智能体挑战赛(SMAC)等复杂场景中,智能体常面临"队友对手皆未知"的困境——既要与策略不明的队友协作,又需对抗行为莫测的对手。传统多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)因环境非平稳性和策略组合爆炸问题,难以实现跨任务、跨场景的泛化能力。现有研究如零样本学习(Zero-Shot Learning, ZSL)和即时团队协作(Ad-Hoc Teamwork, AHT)各执一端:前者专注任务迁移却忽视队友适配,后者侧重团队协作而弱于环境适应。这种割裂现状严重制约了智能体在真实场景中的应用潜力。

北京邮电大学智能科学与技术专业的Chenxu Wang博士团队在《Neurocomputing》发表的研究,提出了革命性的解决方案。团队首先构建了Agent Collaborative-Competitive Adaptation (ACCA)框架,首次将环境适应、任务迁移、队友协作与对手竞争四大挑战纳入统一评估体系。其核心创新Multi-Retriever and Dynamic Generation (MRDG)方法包含三大技术支柱:(1)多样性策略池(Diversity Policy Pool, DPP)存储各类智能体行为模式;(2)超网络(Hypernetwork)模块动态调整策略网络参数;(3)视角对齐(Viewpoint Alignment, VA)模块统一观测空间表征。研究团队在SMAC、Overcooked-AI和Melting Pot三大基准测试中验证了方法的优越性。

Multi-Agent Reinforcement Learning
通过将问题建模为分散式部分可观测马尔可夫决策过程(Dec-POMDP),明确定义了包含智能体集合、全局状态空间和局部观测函数的数学框架。该建模方式为处理环境非平稳性提供了理论基础。

Methodology
MRDG框架通过三阶段实现泛化能力:训练阶段采集多样化的队友/对手策略构建DPP;检索阶段利用位置编码区分智能体属性,通过双向记忆库分别捕捉高回报协作行为和低回报竞争行为;执行阶段借助超网络动态生成适应策略,VA模块则解决观测视角差异问题。

Experiments
在星际争霸微操场景中,MRDG面对未知的敌人编队策略时胜率较基线方法提升37.2%;在Overcooked-AI的厨房协作任务中,与陌生队友配合的效率提高28.5%;在Melting Pot混合动机场景下,其综合适应能力超越所有对比算法。消融实验证实VA模块能提升23.7%的跨场景策略迁移效果。

Conclusion, Limitations and Future Work
该研究突破了传统MARL在动态多智能体场景中的局限性,首次实现了"环境-任务-伙伴"三维度的协同适应。虽然当前方法在超大规模智能体群中的计算效率仍有提升空间,但其提出的ACCA框架为通用智能体研究树立了新范式。特别是视角对齐机制和动态策略生成技术,为后续研究智能体认知对齐、元学习等方向提供了重要参考。这项工作不仅推动了游戏AI和机器人集群控制的发展,更为实现"人-机-环境"无缝协作的智能系统奠定了理论基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号