
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于交互关系建模与行为预测的分布式多智能体对抗强化学习算法研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对动态对抗环境中观测子系统非平稳性及分布式在线学习难题,研究团队提出基于图注意力机制(GAT)和条件变分自编码器(CVAE)的分布式多智能体强化学习算法(DTDE-MARL)。通过构建双层次GAT交互关系模型预测异构智能体行为,显著提升策略稳定性,在捕食者-猎物对抗系统中验证其优于MADDPG、H2G-MAAC等现有算法,为实际对抗场景提供可解释决策框架。
在人工智能与仿生学交叉领域,多智能体对抗研究正成为解决军民领域复杂决策问题的新突破口。动物界群体捕食行为蕴含的协作与竞争智慧,为构建动态对抗系统提供了生物启发。然而现有基于集中训练分散执行(CTDE)的多智能体强化学习(MARL)方法面临严峻挑战:通信受限导致智能体仅能获取局部观测信息,感知域边缘实体随机进出引发观测子系统非平稳性,加之异构智能体行为不可预知,使得传统算法难以实现分布式在线学习。这些瓶颈严重制约了MARL在实际对抗场景中的应用。
针对上述问题,研究人员创新性地将捕食者-猎物模型转化为多智能体对抗系统,提出首个完全分布式训练与执行(DTDE)的MARL框架。该研究通过双层次图注意力网络(Graph Attention Network, GAT)构建智能体-环境交互关系模型:第一层基于运动状态建立动态实体关联,第二层通过类别属性建模静态关系,使策略网络能聚焦感知域内稳定信息。为预测异构智能体行为,团队设计条件变分自编码器(Conditional Variational Autoencoder, CVAE)模块,通过分析历史轨迹学习对手运动规律。这两项核心技术被集成至改进的MADDPG算法框架,形成BPDGMA新算法。
实验设计
研究在模拟捕食者-猎物对抗环境中验证算法性能:猎物组采用CTDE-MADDPG学习规避策略,捕食者组分别用BPDGMA、MAPPO、H2G-MAAC等算法进行DTDE训练。通过对比成功率、路径效率等指标,系统评估不同算法在动态环境中的适应性。
主要发现
这项研究的意义在于:首次实现完全分布式的MARL对抗策略学习,突破CTDE方法对全局信息的依赖;提出的交互关系模型为多智能体决策提供可解释性分析工具;CVAE行为预测模块为动态环境建模开辟新思路。论文成果已被《Expert Systems with Applications》收录,为无人机集群对抗、智能交通调度等实际应用提供理论基础。未来研究可进一步探索模块化架构在多任务迁移学习中的潜力。
生物通微信公众号
知名企业招聘