预训练默契行为机制：连接个体性与多智能体对抗协同的桥梁

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月19日 来源：Neural Networks 6.3

编辑推荐：

　　本文提出PTBC框架，通过模式机制与默契机制（Tacit Mechanism）整合智能体空间关系，利用预训练网络增强优势位点形成，提升多智能体强化学习（MARL）在对抗协同任务中的效率与泛化能力。

亮点聚焦

本研究引入PTBC框架，通过默契机制整合优势空间定位，使智能体在多智能体对抗协同任务中发展出更高效的策略。该机制将分散式默契预训练与集中式对抗训练相衔接，兼具分散训练的鲁棒性与CTDE范式的稳定性。在默契预训练阶段，我们构建了结合模式分类与默契奖励的双层结构，动态引导智能体形成协同空间优势。

引言

多智能体对抗协同问题因行为复杂、环境非稳态及通信不完善而面临重大挑战。多智能体强化学习（MARL）通过挖掘智能体间潜在协作能力，为应对这些挑战提供了可行路径。现有研究多依赖团队奖励更新策略，却未能充分利用空间关系及其动态趋势，导致训练效率低下。受人类战术启发，我们提出“默契行为”概念，通过空间关系量化提升学习效率。

相关研究

为增强智能体间协作行为并提升对抗协同任务中的学习效率，研究者日益尝试将现实世界灵感以多样形式融入强化学习。早期研究侧重于将整体任务分解为子任务并提供相应奖励，但多局限于静态空间关系或单一任务场景。

理论基础

本研究聚焦于可定义为Dec-POMDP的多智能体对抗协同任务，其元组表示为 G=〈S,U,Ω,O,n,P,r,γ〉。其中 s∈S 为环境全局状态，联合动作空间 U=U₁×?×U_n 由智能体 i={1,?,n} 的个体动作集合构成。每个时间步，智能体 i 根据观测函数 O(s,i):S→Ω 获取局部观测值 o_i∈Ω 并选择动作 u_i∈U。

方法论

我们提出新颖的MARL框架PTBC，其核心是通过形成优势空间关系协助智能体击败对手。如图1所示，该框架采用两阶段训练流程：默契预训练阶段通过模式机制对智能体空间模式进行动态分类，默契机制则基于空间关系构建内在奖励；集中对抗训练阶段利用预训练网络加速优势阵型形成，显著提升学习效能。

实验验证

我们通过系统实验探究以下关键问题：

(1) 预训练模型能否学习协同行为？其具体表征如何？（第5.1节）

(2) PTBC框架是否基于已获取的默契提升学习性能？（第5.2节）

(3) 模式与默契机制对整体性能的贡献度如何？（第5.3节）

(4) 框架在QMIX类算法中是否具备泛化能力？（第5.4节）

结论

本研究提出的PTBC框架通过默契机制整合优势空间定位，使智能体在多智能体对抗协同任务中发展出更高效策略。该机制创新性地将分散式默契预训练与集中式对抗训练相融合，兼具分散训练的鲁棒性与CTDE范式的稳定性。实验结果表明，在Predator-Prey和星际争霸多智能体挑战（SMAC）环境中，该方法较现有算法展现出显著性能提升。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号