
-
生物通官微
陪你抓住生命科技
跳动的脉搏
预训练默契行为机制:连接个体性与多智能体对抗协同的桥梁
【字体: 大 中 小 】 时间:2025年09月19日 来源:Neural Networks 6.3
编辑推荐:
本文提出PTBC框架,通过模式机制与默契机制(Tacit Mechanism)整合智能体空间关系,利用预训练网络增强优势位点形成,提升多智能体强化学习(MARL)在对抗协同任务中的效率与泛化能力。
亮点聚焦
本研究引入PTBC框架,通过默契机制整合优势空间定位,使智能体在多智能体对抗协同任务中发展出更高效的策略。该机制将分散式默契预训练与集中式对抗训练相衔接,兼具分散训练的鲁棒性与CTDE范式的稳定性。在默契预训练阶段,我们构建了结合模式分类与默契奖励的双层结构,动态引导智能体形成协同空间优势。
引言
多智能体对抗协同问题因行为复杂、环境非稳态及通信不完善而面临重大挑战。多智能体强化学习(MARL)通过挖掘智能体间潜在协作能力,为应对这些挑战提供了可行路径。现有研究多依赖团队奖励更新策略,却未能充分利用空间关系及其动态趋势,导致训练效率低下。受人类战术启发,我们提出“默契行为”概念,通过空间关系量化提升学习效率。
相关研究
为增强智能体间协作行为并提升对抗协同任务中的学习效率,研究者日益尝试将现实世界灵感以多样形式融入强化学习。早期研究侧重于将整体任务分解为子任务并提供相应奖励,但多局限于静态空间关系或单一任务场景。
理论基础
本研究聚焦于可定义为Dec-POMDP的多智能体对抗协同任务,其元组表示为 G=〈S,U,Ω,O,n,P,r,γ〉。其中 s∈S 为环境全局状态,联合动作空间 U=U1×?×Un 由智能体 i={1,?,n} 的个体动作集合构成。每个时间步,智能体 i 根据观测函数 O(s,i):S→Ω 获取局部观测值 oi∈Ω 并选择动作 ui∈U。
方法论
我们提出新颖的MARL框架PTBC,其核心是通过形成优势空间关系协助智能体击败对手。如图1所示,该框架采用两阶段训练流程:默契预训练阶段通过模式机制对智能体空间模式进行动态分类,默契机制则基于空间关系构建内在奖励;集中对抗训练阶段利用预训练网络加速优势阵型形成,显著提升学习效能。
实验验证
我们通过系统实验探究以下关键问题:
(1) 预训练模型能否学习协同行为?其具体表征如何?(第5.1节)
(2) PTBC框架是否基于已获取的默契提升学习性能?(第5.2节)
(3) 模式与默契机制对整体性能的贡献度如何?(第5.3节)
(4) 框架在QMIX类算法中是否具备泛化能力?(第5.4节)
结论
本研究提出的PTBC框架通过默契机制整合优势空间定位,使智能体在多智能体对抗协同任务中发展出更高效策略。该机制创新性地将分散式默契预训练与集中式对抗训练相融合,兼具分散训练的鲁棒性与CTDE范式的稳定性。实验结果表明,在Predator-Prey和星际争霸多智能体挑战(SMAC)环境中,该方法较现有算法展现出显著性能提升。
生物通微信公众号
知名企业招聘