基于群体智能的交互动态影响图优化：应对多智能体系统中未知行为的决策新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月31日 来源：ARTIFICIAL INTELLIGENCE REVIEW 13.9

编辑推荐：

　　本研究针对多智能体系统中主体智能体面临其他智能体未知行为时的决策优化难题，创新性地将粒子群优化(PSO)和蚁群优化(ACO)算法引入交互动态影响图(I-DID)框架，开发了PSB/ACB两种行为生成算法。通过理论分析和实验验证，证明新方法能有效提升主体智能体的决策质量，为解决动态响应策略优化问题提供了进化计算新思路。

在复杂的多智能体交互场景中，主体智能体常常面临一个棘手难题：当其他智能体表现出预期之外的行为时，如何保持最优决策？这个问题在无人机协同侦察、灾难救援团队协作等现实应用中尤为突出。传统交互动态影响图(I-DID)作为多智能体决策的经典框架，虽然能建模协作或竞争关系，但其性能严重依赖于对其他智能体行为的准确预判——一旦遭遇未知行为，决策质量就会断崖式下降。Yinghui Pan等研究者敏锐捕捉到这一瓶颈，在《ARTIFICIAL INTELLIGENCE REVIEW》发表的研究中，开创性地将群体智能(SI)算法融入I-DID，为动态响应策略优化开辟了新路径。

研究团队采用粒子群优化(PSO)和蚁群优化(ACO)两大群体智能算法，设计了PSB和ACB两种创新方法。关键技术包括：1) 将策略树编码为粒子位置/蚂蚁路径，设计专门的算术规则更新行为；2) 引入多样性指标量化行为差异；3) 在老虎问题和无人机协同两大经典场景中验证算法性能。通过200次迭代优化，从8个初始模型生成12个候选行为模型，系统比较了与精确算法(Exact)、遗传算法(GA)的优劣。

研究结果部分，"平均适应度值/多样性与平均奖励"小节显示，PSB/ACB在T=3-5的时间范围内，适应度值收敛速度比GA快约30%，行为多样性提高40%。

当真实模型不在候选集中时（图5），PSB使主体智能体获得的平均奖励比GA高35%，在T=5时达到3.56分。"参数影响"分析（图6、图10）表明，PSB的惯性权重ω=0.4、ACB的挥发因子ρ=0.5时效果最佳。

"多智能体扩展"部分验证了方法的普适性。在7个智能体的老虎问题中，PSB使主体获得2.35分，显著优于ACB的0.48分；在11×11网格的无人机追捕中，PSB保持36.17分的高性能（表4）。值得注意的是，在混合合作-竞争的组织管理场景中（表6），PSB在T=6时的决策质量达到4.786分，计算效率比GA提升33%。

研究通过理论证明（命题1）和Hoeffding不等式，确立了算法收敛的概率边界：Pr(Tσ≤φ)≥1-|A_j|Te^{-2TNφ²/r|A_j|²}>，其中σ表示行为预测误差。实验验证了预期奖励误差Υ_i与σ的线性关系，证实PSB能有效控制决策风险。

这项研究的突破性在于：首次将群体智能的集体行为特性引入I-DID框架，解决了传统方法对先验知识的依赖问题。PSB算法通过平衡个体与群体行为，在保持决策理性的同时增强了行为多样性，为智能交通调度、应急响应等动态场景提供了可解释的决策支持。虽然参数敏感性仍需优化，但开源的SI-IDID工具包为后续研究奠定了基础，标志着多智能体决策从"预设响应"到"自适应进化"的重要转变。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号