基于最弱成员绩效评估的神经进化与强化学习协同激励机制研究

【字体: 时间:2025年07月26日 来源:Frontiers in Robotics and AI 3.0

编辑推荐:

  这篇研究创新性地提出通过评估群体中最弱成员表现(MINIMUM reward scheme)来优化多智能体协同策略,在遗传算法(GA)和强化学习(RL)框架中验证了该机制能显著提升群体公平性(降低despotic index)且保持高效性能。研究揭示了群体选择(Group-level selection)与包容性适应(inclusive fitness)在AI协作中的生物启发价值,为自动驾驶、医疗等多智能体系统设计提供了新范式。

  

引言:多智能体协作的公平性挑战

随着自动驾驶汽车、医疗服务机器人等自主智能体(autonomous agents)在社交领域的广泛应用,个体贪婪策略导致的交通拥堵、资源竞争等问题日益凸显。传统多智能体强化学习(MARL)方法如全局奖励(global reward)或独立优化往往导致资源分配不公(despotic distribution),而生物界中群体选择(Group-level selection)和包容性适应(inclusive fitness)机制为协同进化提供了新思路。

方法:最弱成员奖励机制设计

研究团队设计了三类奖励聚合方案:

  1. MEAN:群体奖励按成员平均值分配
  2. MAXIMUM:以最优成员表现为基准(对照组)
  3. MINIMUM:以最弱成员表现决定群体奖励

实验采用两种范式:

  • 遗传算法:通过马尔可夫脑(Markov Brains)控制智能体在16×16网格中完成觅食任务,比较克隆群体(模拟群体选择)与随机组群(模拟包容性适应)的表现
  • Q学习:在8×8全观测环境中,对比集中式(单策略控制四智能体)与分散式(独立策略)控制的效能

结果:公平与效率的双赢

遗传算法实验显示:

  • GroupLS-MINIMUM方案使群体食物收集量达峰值(图1),同时资源分配曲线最平缓(图2),despotic index降低82%
  • MAXIMUM方案导致单一智能体垄断资源,MEAN方案产生中等倾斜分布

强化学习实验证实:

  • 集中式MINIMUM策略的群体效能较MAXIMUM提升37%(图3)
  • 独立策略下MINIMUM仍能维持较低despotic index,但效能低于集中控制(图4)

讨论:生物机制与AI协同的共鸣

该研究首次证实MINIMUM奖励方案能同时满足:

  1. 效能优化:通过压力传导促使群体提升基线性能
  2. 公平保障:规避"牺牲弱者"的博弈均衡
  3. 生物可解释性:模拟了多细胞生物(multicellular organisms)中体细胞协作的进化逻辑

在交叉路口导航的补充实验(见附件)中,该机制同样展现出普适性。与OpenAI的"团队精神"(team spirit)等复杂方案相比,MINIMUM机制无需超参数调优,为医疗机器人协作、智能交通调度等场景提供了即插即用的公平性解决方案。未来研究可探索该框架在异质智能体混合群体及人类-AI协作中的应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号