预训练默契行为机制:连接个体性与多智能体对抗协同的桥梁

【字体: 时间:2025年09月19日 来源:Neural Networks 6.3

编辑推荐:

  本文提出PTBC框架,通过模式机制与默契机制(Tacit Mechanism)整合智能体空间关系,利用预训练网络增强优势位点形成,提升多智能体强化学习(MARL)在对抗协同任务中的效率与泛化能力。

  

亮点聚焦

本研究引入PTBC框架,通过默契机制整合优势空间定位,使智能体在多智能体对抗协同任务中发展出更高效的策略。该机制将分散式默契预训练与集中式对抗训练相衔接,兼具分散训练的鲁棒性与CTDE范式的稳定性。在默契预训练阶段,我们构建了结合模式分类与默契奖励的双层结构,动态引导智能体形成协同空间优势。

引言

多智能体对抗协同问题因行为复杂、环境非稳态及通信不完善而面临重大挑战。多智能体强化学习(MARL)通过挖掘智能体间潜在协作能力,为应对这些挑战提供了可行路径。现有研究多依赖团队奖励更新策略,却未能充分利用空间关系及其动态趋势,导致训练效率低下。受人类战术启发,我们提出“默契行为”概念,通过空间关系量化提升学习效率。

相关研究

为增强智能体间协作行为并提升对抗协同任务中的学习效率,研究者日益尝试将现实世界灵感以多样形式融入强化学习。早期研究侧重于将整体任务分解为子任务并提供相应奖励,但多局限于静态空间关系或单一任务场景。

理论基础

本研究聚焦于可定义为Dec-POMDP的多智能体对抗协同任务,其元组表示为 G=〈S,U,Ω,O,n,P,r,γ〉。其中 s∈S 为环境全局状态,联合动作空间 U=U1×?×Un 由智能体 i={1,?,n} 的个体动作集合构成。每个时间步,智能体 i 根据观测函数 O(s,i):S→Ω 获取局部观测值 oi∈Ω 并选择动作 ui∈U。

方法论

我们提出新颖的MARL框架PTBC,其核心是通过形成优势空间关系协助智能体击败对手。如图1所示,该框架采用两阶段训练流程:默契预训练阶段通过模式机制对智能体空间模式进行动态分类,默契机制则基于空间关系构建内在奖励;集中对抗训练阶段利用预训练网络加速优势阵型形成,显著提升学习效能。

实验验证

我们通过系统实验探究以下关键问题:

(1) 预训练模型能否学习协同行为?其具体表征如何?(第5.1节)

(2) PTBC框架是否基于已获取的默契提升学习性能?(第5.2节)

(3) 模式与默契机制对整体性能的贡献度如何?(第5.3节)

(4) 框架在QMIX类算法中是否具备泛化能力?(第5.4节)

结论

本研究提出的PTBC框架通过默契机制整合优势空间定位,使智能体在多智能体对抗协同任务中发展出更高效策略。该机制创新性地将分散式默契预训练与集中式对抗训练相融合,兼具分散训练的鲁棒性与CTDE范式的稳定性。实验结果表明,在Predator-Prey和星际争霸多智能体挑战(SMAC)环境中,该方法较现有算法展现出显著性能提升。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号