
-
生物通官微
陪你抓住生命科技
跳动的脉搏
对抗性少数影响:揭示协作多智能体强化学习系统脆弱性的黑盒攻击范式
【字体: 大 中 小 】 时间:2025年06月23日 来源:Neural Networks 6.0
编辑推荐:
本研究针对协作多智能体强化学习(c-MARL)系统在现实场景中的安全性问题,提出创新性黑盒攻击框架AMI(Adversarial Minority Influence)。通过设计单向影响过滤器和目标对抗预言机,首次实现单对抗智能体对多数受害者的定向误导,成功在机器人集群和StarCraft II等复杂环境中诱导最劣协作。该成果为评估c-MARL系统鲁棒性提供了重要方法论。
在人工智能技术快速发展的今天,协作多智能体强化学习(cooperative Multi-Agent Reinforcement Learning, c-MARL)已成为实现复杂协同任务的核心技术,广泛应用于自动驾驶、机器人集群控制等关键领域。然而,这种依赖多智能体协作的系统面临着严峻的安全挑战——恶意攻击者可能通过少数智能体的异常行为破坏整个系统的协作效能。现有研究多局限于需要完全掌握受害者模型参数的白盒攻击,或仅能产生随机干扰的简单攻击模式,既不符合实际应用场景的安全假设,也无法有效评估c-MARL系统在最劣情况下的真实鲁棒性。
针对这一技术瓶颈,北京航空航天大学的研究团队在《Neural Networks》发表了突破性研究成果。研究者从社会心理学中的"少数派影响"现象获得启发,创新性地提出了对抗性少数影响(Adversarial Minority Influence, AMI)框架。该框架首次实现了在完全黑盒条件下,仅需控制单个对抗智能体即可系统性地误导多数受害者智能体形成定向的最劣协作策略。通过理论创新与实验验证,研究团队不仅成功攻击了StarCraft II、Multi-agent Mujoco等标准测试环境,更在全球首次实现了对真实机器人集群的有效攻击,为c-MARL系统的安全性评估树立了新标杆。
研究采用三项核心技术:首先基于部分可观测随机博弈(POSG)理论建立攻击模型;其次设计单向影响过滤器,通过分解互信息(mutual information)量化并最大化对抗者对受害者的单向影响;最后开发目标对抗预言机,采用强化学习智能体通过试错法确定诱导受害者协同失败的最优目标策略。
研究结果部分揭示:
《Overview of adversarial attacks》阐明了传统对抗攻击在c-MARL场景的局限性;
《Problem formulation》将c-MARL攻击建模为POSG问题,明确定义了Nα(对抗者)与Nν(受害者)的交互范式;
《Method》部分提出的AMI框架包含两大创新——通过单向影响过滤解决"影响挑战",利用目标对抗预言机应对"协作挑战";
《Experiments》在仿真和真实环境中验证了AMI的攻击效力,受害团队在StarCraft II中的胜率下降达63.2%;
《Conclusion》总结指出,AMI首次实现了对真实机器人集群的攻击,为c-MARL系统安全评估提供了可扩展的解决方案。
该研究的核心价值在于突破了传统对抗攻击的理论局限:通过数学建模将社会心理学现象转化为可计算的AI安全评估工具;提出的单向影响度量方法为多智能体系统影响分析提供了新范式;而目标导向的攻击策略设计则开创了评估协作AI系统鲁棒性的新途径。正如研究者强调的,这项成果不仅揭示了c-MARL系统在现实部署中可能存在的重大安全隐患,更为构建具有抗干扰能力的下一代协作AI系统提供了关键理论基础和方法支撑。值得注意的是,研究团队已开源全部代码和演示案例,这将极大促进AI安全领域的后续研究发展。
生物通微信公众号
知名企业招聘