多智能体强化学习在常见无人机故障下实现多源烟羽追踪

【字体: 时间:2025年09月22日 来源:Machine Learning with Applications 4.9

编辑推荐:

  本文针对危险气体多源排放定位难题,提出了一种基于动作特定双深度循环Q网络(ADDRQN)的多无人机协同追踪方法。研究通过构建部分可观测马尔可夫博弈模型,结合随机化中心化训练与分散执行机制,解决了传统方法在三维多源环境中信号混叠、通信中断与设备故障的挑战。实验表明ADDRQN在成功率和定位速度上显著优于基线模型,为灾害应急响应提供了鲁棒性强的自主协同解决方案。

  

工业事故、管道泄漏和野火等事件导致的有害气体排放,对公共健康和基础设施构成严重威胁。快速定位这些排放源成为应急响应的关键,但现实环境中的湍流、多变风力以及多源共存导致的信号混叠(aliasing)现象,使传统方法如梯度上升法、生物启发策略等难以有效应对。梯度法在湍流导致的间歇性气味信号中常常失效,生物启发策略则对风向变化和障碍物过于敏感。虽然信息论和概率方法能显式处理不确定性,但往往优化替代指标而非直接最小化定位时间,在紧急响应中可能适得其反。

强化学习(RL)近年来成为解决气体源定位的新途径,但现有研究多局限于单智能体、单源和二维环境,且忽略了实际部署中的通信故障、传感器噪声和智能体脱落等关键问题。多源场景中相同化学特征的烟羽重叠会导致信号混淆,而三维搜索更大幅增加了状态空间的复杂度。此外,真实无人机团队存在较高故障率(约10?3/飞行小时)和通信退化问题,但多数算法仍在理想化假设下评估。

为此,圣母大学计算机科学与工程系的Pedro Antonio Alarcon Granadeno等人开展了针对多无人机在多源烟羽追踪中的协同强化学习研究,成果发表在《Machine Learning with Applications》。该研究首次将多源烟羽追踪建模为合作性部分可观测马尔可夫博弈(POMG),提出ADDRQN(Action-Specific Double Deep Recurrent Q-Network)网络结构,通过动作-观测对编码提升潜在状态推断能力,采用置换不变集合编码器整合队友信息,并通过随机化主机分配和团队规模变化训练,使策略对智能体故障、通信中断和传感器噪声具有强鲁棒性。

研究主要采用以下关键技术方法:1)基于高斯烟羽模型(GPM)构建多源扩散环境,采用叠加原理模拟多污染源浓度场;2)设计动作特定的双深度循环Q网络(ADDRQN),包含主机状态嵌入器、邻机GRU编码器和时序聚合模块;3)采用中心化训练与分散执行(CTDE)框架,通过随机化团队规模和主机选择的训练机制;4)引入传感器噪声模型,浓度读数添加高斯噪声(标准差为α×真实浓度);5)使用分桶经验回放缓冲池存储不同团队规模的转移样本。

6.1 RQ1: 消融实验

通过32种架构组合测试表明,动作特定模型(ADDRQN和ADRQN)在所有配置中均优于仅观测的基线(DRQN和DDRQN)。ADDRQN在94.3%的成功率下表现最佳,其优势源于动作信息减少了感知混叠:相同观测可能对应不同潜在状态,而先前动作帮助消除了歧义。双Q学习进一步稳定了训练,缓解了过高估计问题。网络宽度实验显示中等容量模型最优,过参数化会导致性能下降。模块替换实验发现GRU在邻机编码器中效果更佳,因其对噪声团队观测具有过滤作用。

6.2 RQ2: 对无人机故障和通信中断的鲁棒性

在通信中断测试中,智能体以一定概率进入黑屏状态(看不到队友),但策略成功率仍保持在99.75%以上,中位 episode 长度无变化,表明算法对间歇通信丢失具有强韧性。在智能体脱落测试中,模拟硬件故障导致永久性退出,当1-2个智能体脱落时成功率下降1.20-2.80%,步骤数略有增加;当3个智能体脱落(仅剩1个)时成功率降至86.9%,步骤数翻倍,但策略仍能完成任务,证明主机随机化训练使所有智能体具有角色不变和故障容忍能力。

6.3 RQ3: 团队规模影响

团队规模从1增至4时,成功率从88.93%提升至97.30%,平均步骤数从147.33降至43.77。其中从1到2智能体的改进最大(+6.3个百分点),表明多智能体并行探索能显著提升搜索效率和覆盖范围。

研究结论表明,ADDRQN方法通过动作条件化循环值函数和随机化CTDE训练,能有效处理多源烟羽追踪中的部分可观测性、智能体故障和通信中断问题。该方法在三维多源环境中实现了高成功率和快速定位,对无人机团队在灾害响应中的实际应用具有重要意义。局限性在于依赖高斯烟羽模型,在复杂地形或非平稳气象条件下可能性能下降,未来需集成更先进的扩散模型(如拉格朗日粒子模型或CFD模拟),并引入显式防碰撞机制提升安全性。

该研究首次将协作多智能体强化学习应用于烟羽定位领域,为解决现实环境中的多源气体追踪问题提供了创新性解决方案,为应急响应机器人学的发展提供了重要参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号