
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于最弱成员绩效评估的神经进化与强化学习协同激励机制研究
【字体: 大 中 小 】 时间:2025年07月26日 来源:Frontiers in Robotics and AI 3.0
编辑推荐:
这篇研究创新性地提出通过评估群体中最弱成员表现(MINIMUM reward scheme)来优化多智能体协同策略,在遗传算法(GA)和强化学习(RL)框架中验证了该机制能显著提升群体公平性(降低despotic index)且保持高效性能。研究揭示了群体选择(Group-level selection)与包容性适应(inclusive fitness)在AI协作中的生物启发价值,为自动驾驶、医疗等多智能体系统设计提供了新范式。
随着自动驾驶汽车、医疗服务机器人等自主智能体(autonomous agents)在社交领域的广泛应用,个体贪婪策略导致的交通拥堵、资源竞争等问题日益凸显。传统多智能体强化学习(MARL)方法如全局奖励(global reward)或独立优化往往导致资源分配不公(despotic distribution),而生物界中群体选择(Group-level selection)和包容性适应(inclusive fitness)机制为协同进化提供了新思路。
研究团队设计了三类奖励聚合方案:
实验采用两种范式:
遗传算法实验显示:
强化学习实验证实:
该研究首次证实MINIMUM奖励方案能同时满足:
在交叉路口导航的补充实验(见附件)中,该机制同样展现出普适性。与OpenAI的"团队精神"(team spirit)等复杂方案相比,MINIMUM机制无需超参数调优,为医疗机器人协作、智能交通调度等场景提供了即插即用的公平性解决方案。未来研究可探索该框架在异质智能体混合群体及人类-AI协作中的应用潜力。
生物通微信公众号
知名企业招聘