基于案例学习与好奇心驱动的协作多智能体双驱优化研究

【字体: 时间:2025年09月07日 来源:Neural Networks 6.3

编辑推荐:

  本文提出CERE-CTDE(案例增强随机网络蒸馏探索)新范式,创新性地将随机网络蒸馏(RND)与案例推理(CBR)结合,解决了多智能体深度强化学习(MADRL)在探索-利用权衡中的关键难题。通过RND提供内在探索激励,CBR实现目标导向的案例复用,该方法在星际争霸多智能体挑战(SMAC)中实现胜率提升17.97%,显著提升策略收敛稳定性与局部最优逃逸能力。

  

亮点

本文提出CERE-CTDE框架,通过双驱机制突破多智能体协作的探索瓶颈:RND模块像"好奇心探测器"持续寻找环境新奇点,而CBR系统则如同"战术档案馆"智能复用历史最优策略。这种动态平衡使智能体在星际争霸(SMAC)战场上既能冒险发现新战术,又能稳健执行经典战法。

CBR在多智能体协作中的应用

案例推理(CBR)作为"经验型指挥官",其四步循环——检索(Retrieve)、复用(Reuse)、修正(Revise)、保留(Retain)——让智能体团队像老兵连队般高效。当遭遇新敌情时,系统自动匹配历史相似战例(如2v2包抄战术),经适应性调整后形成新解决方案,这种机制显著降低了传统MADRL的"战术试错成本"。

CERE-CTDE方法论

我们设计的"探索-开采"双引擎包含:

  1. 1.

    RND探索引擎:通过预测网络与目标网络的误差产生"好奇心奖励",激励智能体探索未知战场区域

  2. 2.

    CBR开采引擎:采用贝叶斯汤普森采样(Thompson Sampling)智能加权历史案例,如同给每个战术动作标注"置信度星标"

    在3s5z等复杂场景中,该框架使智能体像拥有"战术直觉"般,既能大胆尝试侧翼突袭(探索),又能精准执行已验证的集火攻击(开采)。

测试平台

选择星际争霸多智能体挑战(SMAC)作为"数字战场实验室",其包含从简单2 Marines到困难6 Zealots的13种对抗场景。这个RTS游戏环境完美模拟了真实战场的不完全观测、稀疏奖励等挑战,如同为多智能体算法设置的"战术奥林匹克"。

结论

CERE-CTDE像给多智能体装上了"战术进化加速器":RND组件解决稀疏奖励导致的"探索盲区",CBR系统攻克非平稳性引发的"策略震荡"。实验证明,该方法使AC(Actor-Critic)和VD(Value-Decomposition)类算法的学习效率产生质的飞跃,在MMM2(6巨像+8劫掠者)场景中展现出惊人的战术协同能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号