-LIPO:一种基于策略兼容性的多样化协作智能体生成框架
《IEEE Transactions on Artificial Intelligence》:n
-LIPO: Framework for Diverse Cooperative Agent Generation Using Policy Compatibility
【字体:
大
中
小
】
时间:2025年11月12日
来源:IEEE Transactions on Artificial Intelligence CS6.4
编辑推荐:
多智能体强化学习领域提出n-LIPO方法,通过策略兼容性设计解决现有方法多样性不足问题。该方法理论证明策略不兼容即本质差异,结合互信息优化实现多智能体协作策略的多样化训练。实验表明其在Overcooked双人和StarCraft多智能体环境中能有效生成多样化联合策略,提升泛化能力。
影响声明:
协作式多智能体系统在多个领域具有实际应用价值,从协作机器人技术到金融领域的复杂决策制定,再到自动驾驶车辆等...显示更多摘要:
在多智能体任务中,多样化的训练伙伴对于培养出强大且具有适应性的协作智能体至关重要。以往的方法通常依赖状态-动作信息来使伙伴的行为多样化,但这往往只能带来细微的变化,而无法实现真正的行为多样性。我们通过引入基于“策略兼容性”的新训练目标来解决这一局限。该方法鼓励团队内的智能体相互兼容,同时与其他团队的智能体不兼容,从而学习到多样的行为。我们从理论上证明了不兼容的策略本质上是不同的,因此可以将策略兼容性作为多样性的代理指标。我们将这种方法称为-玩家协作游戏(-LIPO)。我们提出通过结合状态-动作信息来进一步丰富个体策略的多样性。实证研究表明,-LIPO能够在各种双人及多人协作环境中有效生成多样化的联合策略。在一个复杂的协作任务——双人多菜谱游戏Overcooked中,我们发现-LIPO能够生成行为多样化的智能体群体。这些群体被用来训练出比基础群体更具泛化能力的通用智能体。最后,我们证明了-LIPO可以应用于高维度的StarCraft多智能体挑战(SMAC)多人协作环境,在仅有单一目标的情况下发现多样化的获胜策略。更多可视化内容可访问:https://sites.google.com/view/n-lipo/home。
引言
智能的一个显著特征是能够与他人合作,包括那些具有不同偏好和信念的个体。例如,人类能够与说不同语言的外国人有效协作,以实现共同目标,这体现了适应性和与广泛合作者合作的能力。然而,开发具备这种灵活且强大协作能力的智能体仍然是一个未解决的挑战。尽管最先进的(SOTA)协作式多智能体强化学习(MARL)算法能够生成能够解决复杂协作任务的智能体团队[1]、[2],但这些智能体往往会对训练伙伴产生过度拟合,从而影响它们与未见过的智能体协作的能力[3]、[4]、[5]、[6]。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号