
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于分层残差Q网络的多智能体强化学习价值函数分解方法研究
【字体: 大 中 小 】 时间:2025年08月28日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种新颖的多智能体强化学习(MARL)框架——分层残差Q网络(HRQ),通过外层残差网络(ORN)增强混合网络的表征能力,并引入内层残差熵辅助网络(IREAN)优化个体动作价值函数,有效解决了任务多样性和智能体独立性导致的信用分配和值高估问题。实验表明,HRQ在捕食者-猎物和星际争霸II等协作任务中性能提升10%–20%,为MARL领域提供了更高效的收敛稳定性和适应性解决方案。
亮点
我们设计了一种更宽松的条件并证明其满足个体-全局最大化原则(IGM);
提出新型校正方法HRQ,通过内层残差熵辅助网络(IREAN)和外层残差网络(ORN)同步提升个体与联合动作价值函数的表征能力;
在捕食者-猎物和星际争霸II环境中验证了方法的优越性,性能显著超越现有算法。
方法
基于前述分析,我们设计了更全面的补偿机制:聚焦个体Q值(关联信用分配问题)和全局联合Q值(关联函数逼近误差)。通过松弛价值函数分解约束,提出分层残差框架——内层网络IREAN基于熵修正优化个体贡献度,外层网络ORN通过残差学习校正联合Q值,从而提升探索效率和收敛稳定性。
实验
在捕食者-猎物和星际争霸II多智能体挑战(SMAC)中测试HRQ性能,并在SMAC的MMM2地图进行消融实验。结果显示,HRQ在复杂协作任务中始终保持10%–20%的性能优势,尤其在智能体异构性和高维动作空间场景下表现突出。
结论
本研究通过残差网络改进多智能体强化学习(MARL)的动作价值函数,提出分层残差Q网络(HRQ)。其核心IREAN和ORN网络基于个体-全局最大化原则(IGM)实现稳健的联合动作价值函数分解,为MARL的信用分配和值估计问题提供了创新解决方案。
生物通微信公众号
知名企业招聘