基于状态表征驱动采样与自适应策略重置的多智能体强化学习优化方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月17日 来源：Neural Networks 6.0

编辑推荐：

　　针对多智能体强化学习(MARL)中探索不足和样本效率低下的核心挑战，研究人员提出eXJTU-MARL框架，创新性整合自适应策略重置机制(APRM)和状态表征平衡采样(SRBES)，在星际争霸多智能体挑战环境(SMAC)中实现探索效率与学习性能的双重突破，为复杂决策任务提供新范式。

在人工智能技术迅猛发展的今天，多智能体协同决策已成为自动驾驶、工业调度等领域的核心需求。然而，传统多智能体强化学习(MARL)算法面临两大"顽疾"：智能体策略容易陷入局部最优而探索不足，以及在庞大状态-动作空间中样本利用率低下。这些问题导致现有方法在星际争霸多智能体挑战(SMAC)等复杂环境中表现欠佳，亟需突破性解决方案。

西安交通大学的研究团队在《Neural Networks》发表的研究中，提出了名为eXJTU-MARL的创新框架。该研究通过两个核心技术模块——自适应策略重置机制(APRM)和状态表征平衡采样(SRBES)，首次实现了探索效率与学习效率的协同优化。其中APRM通过周期性重置部分策略参数打破策略固化，SRBES则利用状态表征的余弦相似度实现经验回放的智能筛选，二者协同作用使算法在SMAC环境中胜率最高提升37.6%。

关键技术方法包括：1) 基于动态模型和互模拟的两种状态表征编码器构建；2) 周期性参数重置与融合的APRM实现；3) 基于余弦相似度的SRBES样本筛选策略；4) 在8种SMAC地图场景下的对比验证。

【高效探索联合训练无偏框架(eXJTU-MARL)】

通过整合APRM和SRBES模块，构建端到端的MARL训练架构。APRM采用"收缩-扰动"策略定期重置20%网络参数，同时引入跨智能体参数融合机制；SRBES则通过表征相似度计算实现经验缓冲区的分层采样，使关键状态采样概率提升3.2倍。

【实验验证】

在SMAC的"3s_vs_5z"等复杂场景中，eXJTU-MARL相比MARR等基线算法训练效率提升41%，最终胜率达到82.3%。特别在超大规模地图"27m_vs_30m"中，探索覆盖率较RE3方法提高58%。

【消融研究】

去除APRM模块导致探索效率下降29%，而禁用SRBES使样本利用率降低35%。动态表征编码器在移动作战场景中表现更优，而互模拟编码器则擅长处理静态防御任务。

该研究的突破性在于：首次将状态表征引入MARL样本筛选，创建了探索-利用平衡的新范式。APRM的参数融合机制为多智能体协同学习提供新思路，而SRBES的偏差校正特性解决了经验回放中的样本失衡问题。这些创新不仅为复杂决策系统提供实用工具，更为MARL理论发展开辟了新方向。未来工作可拓展至非完全信息博弈场景，并探索表征学习与元学习的结合路径。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号