
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于案例学习与好奇心驱动的协作多智能体双驱优化研究
【字体: 大 中 小 】 时间:2025年09月07日 来源:Neural Networks 6.3
编辑推荐:
本文提出CERE-CTDE(案例增强随机网络蒸馏探索)新范式,创新性地将随机网络蒸馏(RND)与案例推理(CBR)结合,解决了多智能体深度强化学习(MADRL)在探索-利用权衡中的关键难题。通过RND提供内在探索激励,CBR实现目标导向的案例复用,该方法在星际争霸多智能体挑战(SMAC)中实现胜率提升17.97%,显著提升策略收敛稳定性与局部最优逃逸能力。
亮点
本文提出CERE-CTDE框架,通过双驱机制突破多智能体协作的探索瓶颈:RND模块像"好奇心探测器"持续寻找环境新奇点,而CBR系统则如同"战术档案馆"智能复用历史最优策略。这种动态平衡使智能体在星际争霸(SMAC)战场上既能冒险发现新战术,又能稳健执行经典战法。
CBR在多智能体协作中的应用
案例推理(CBR)作为"经验型指挥官",其四步循环——检索(Retrieve)、复用(Reuse)、修正(Revise)、保留(Retain)——让智能体团队像老兵连队般高效。当遭遇新敌情时,系统自动匹配历史相似战例(如2v2包抄战术),经适应性调整后形成新解决方案,这种机制显著降低了传统MADRL的"战术试错成本"。
CERE-CTDE方法论
我们设计的"探索-开采"双引擎包含:
RND探索引擎:通过预测网络与目标网络的误差产生"好奇心奖励",激励智能体探索未知战场区域
CBR开采引擎:采用贝叶斯汤普森采样(Thompson Sampling)智能加权历史案例,如同给每个战术动作标注"置信度星标"
在3s5z等复杂场景中,该框架使智能体像拥有"战术直觉"般,既能大胆尝试侧翼突袭(探索),又能精准执行已验证的集火攻击(开采)。
测试平台
选择星际争霸多智能体挑战(SMAC)作为"数字战场实验室",其包含从简单2 Marines到困难6 Zealots的13种对抗场景。这个RTS游戏环境完美模拟了真实战场的不完全观测、稀疏奖励等挑战,如同为多智能体算法设置的"战术奥林匹克"。
结论
CERE-CTDE像给多智能体装上了"战术进化加速器":RND组件解决稀疏奖励导致的"探索盲区",CBR系统攻克非平稳性引发的"策略震荡"。实验证明,该方法使AC(Actor-Critic)和VD(Value-Decomposition)类算法的学习效率产生质的飞跃,在MMM2(6巨像+8劫掠者)场景中展现出惊人的战术协同能力。
生物通微信公众号
知名企业招聘